Les avantages d'une ville double

Il est possible d'analyser les données de localisation des smartphones sans porter atteinte à la vie privée des utilisateurs. Pieter Fourie explique comment.

Pieter Fourie

Les entreprises de marketing possèdent d'énormes quantités de données provenant d'applications pour smartphones, qui montrent exactement où nous nous sommes trouvés et quand. Un ensemble de données examiné par le New York Times comprend, rien que pour l'agglomération de New York et pour une période de trois jours, 235 millions de points de données de localisation provenant de 1,2 million d'appareils mobiles. Dans un article qui vaut la peine d'être lu1 et un épisode podcast2 le journal nous a montré en décembre dernier comment les individus sont vulnérables lorsque les données personnelles sont vendues en masse au plus offrant. Il a révélé les dimensions personnelles, économiques et sociales du commerce des données de localisation et a souligné le manque de régulation de ce secteur.

City by night
Les données des applications pour smartphones permettent d'établir des profils de déplacement précis de millions d'utilisateurs (image symbolique). (Image : Shutterstock)

Pour certains, jusqu'ici plut?t indifférents au sujet, les grands chiffres cités peuvent représenter un cauchemar orwellien. En tant que chercheur en mobilité à l'ère du Big Data, on s'habitue toutefois rapidement à de tels ordres de grandeur. Au lieu de crier à la destruction de la sphère privée, on peut aussi considérer ces données comme une chance : Par exemple, pour construire de meilleurs modèles avec lesquels nous pouvons étudier les questions de mobilité. Il est en effet possible d'utiliser ces données de suivi tout en protégeant la vie privée des gens.

Une course sans fin

Il existe plusieurs approches pour y remédier. Les entreprises qui commercialisent des données de localisation ont affirmé au New York Times qu'elles utilisaient toujours les données sous une forme agrégée ou anonymisée. Concrètement, soit les points de données sont regroupés de manière à ce que les personnes ne puissent plus être distinguées les unes des autres, soit les informations d'identification sont "masquées", c'est-à-dire délibérément modifiées.

L'anonymisation des données de déplacement des personnes n'est toutefois pas si simple.3. Lorsque de nouvelles technologies d'anonymisation et de masquage sont développées, il est souvent également possible de mettre au point des algorithmes de désanonymisation permettant de reconstituer les traces de personnes individuelles. Cela signifie qu'il n'est jamais exclu que ma sphère privée soit malgré tout violée à un moment ou à un autre dans la course sans fin entre la protection des données et les attaques de pirates.

Les données synthétiques comme alternative

Dans notre équipe du Future Cities Laboratory, nous explorons donc des alternatives aux méthodes traditionnelles de masquage des sites. Nous nous sommes demandé s'il était possible de créer des flux de données de localisation artificiels avec la même résolution temporelle et spatiale que les smartphones, sans pour autant reproduire un véritable parcours de déplacement effectué par une personne.

En effet, dans la pratique, il n'y a que très peu de cas où l'on a besoin d'accéder aux données originales détaillées d'une personne donnée pour analyser des données de mobilité. Souvent, il est tout aussi possible de travailler avec un jeu de données volontairement modifié. Nous générons de tels flux de données synthétiques à partir de données brutes, ces dernières n'étant traitées que par l'ordinateur et restant invisibles pour les utilisateurs.

"Dans une 'ville double', il est possible de tester des mesures de circulation tout en laissant les gens du monde réel tranquilles".Pieter Fourie

Les données synthétiques sont créées en plusieurs étapes : Les données brutes de localisation des appareils mobiles sont transmises de manière sécurisée et cryptée, puis regroupées en agrégats de données de manière vérifiée et certifiée. Ces agrégats peuvent ensuite être utilisés pour générer des données de mobilité synthétiques dont les caractéristiques statistiques ne diffèrent pas des données réelles. Dans notre laboratoire, nous travaillons actuellement sur deux méthodes différentes pour mettre cela en ?uvre4,5.

Ces techniques ne constituent pas seulement un progrès en matière de respect de la vie privée, elles élargissent également le potentiel de la modélisation du trafic : on peut injecter les données synthétiques dans des simulations de mobilité modernes. Il est ainsi possible de créer toute une "ville double" dans laquelle les effets des décisions politiques peuvent être étudiés et les mesures de circulation testées, tandis que les personnes vivant dans le monde réel ne sont pas inquiétées.

Références

1 page externeYour Apps Know Where You Were Last Night, and They're Not Keeping It Secret, York Times, 10 décembre 2018
2
page externeLe business de la vente de votre lieu, The Daily podcast New York Times, 10 décembre 2018
3
Chow CY, Mokbel MR : Trajectory privacy in location-based services and data publication, ACM SIGKK Exploration Newsletter 2011, 13 : 19, doi : page externe10.1145/2031331.2031335
4
Fourie PJ : Synthesizing high-dimensional, agent-based transport demand data from two-dimensional aggregates with iterative multiple histogram matching, ETH Zurich Research Collection 2016, doi : page externe10.3929/ethz-b-000118466
5
Cuauhtémoc A, Ordo?ez Medina SA : A time-space model of disaggregated urban mobility from aggregated mobile phone data, ETH Zurich Research Collection 2018, doi : page externe10.3929/ethz-b-000268852

JavaScript a été désactivé sur votre navigateur.