Vantaggi di una città doppelganger

? possibile analizzare i dati di localizzazione degli smartphone senza violare la privacy degli utenti. Pieter Fourie ci spiega come.

Pieter Fourie

Le aziende di marketing dispongono di enormi quantità di dati provenienti dalle app per smartphone che mostrano esattamente dove siamo stati e quando. Un set di dati analizzato dal New York Times comprende 235 milioni di punti di localizzazione da 1,2 milioni di dispositivi mobili solo per l'area metropolitana di New York e per un periodo di tre giorni. In un articolo che vale la pena di leggere1 e a un episodio del podcast2 Lo scorso dicembre, il documento ci ha mostrato come gli individui siano vulnerabili quando i dati personali vengono venduti in massa al miglior offerente. Ha rivelato le dimensioni personali, economiche e sociali del commercio dei dati di localizzazione e ha evidenziato la mancanza di regolamentazione di questo settore.

Città di notte
I dati delle app per smartphone consentono di tracciare profili precisi dei movimenti di milioni di utenti (immagine simbolica). (Immagine: Shutterstock)

Per alcuni che finora sono rimasti piuttosto indifferenti all'argomento, le grandi cifre citate sopra possono rappresentare un incubo di proporzioni orwelliane. Tuttavia, come ricercatore sulla mobilità nell'era dei big data, ci si abitua rapidamente a tali ordini di grandezza. Invece di evocare immediatamente la scomparsa della privacy, questi dati possono essere visti come un'opportunità: Ad esempio, per costruire modelli migliori con cui analizzare i problemi di mobilità. ? possibile utilizzare questi dati di tracciamento e allo stesso tempo proteggere la privacy delle persone.

Una corsa senza fine

Esistono diversi approcci per affrontare questo problema. Le aziende che commerciano i dati di localizzazione hanno dichiarato al New York Times di utilizzare sempre i dati in forma aggregata o anonimizzata. Nello specifico: o i dati vengono raggruppati in modo tale da non poter più distinguere le persone l'una dall'altra, oppure le informazioni identificative vengono "mascherate", cioè deliberatamente modificate.

Tuttavia, l'anonimizzazione dei dati di movimento delle persone non è così semplice.3. Quando vengono sviluppate nuove tecnologie di anonimizzazione e mascheramento, spesso è anche possibile sviluppare algoritmi di de-anonimizzazione che possono essere utilizzati per ricostruire le tracce delle singole persone. Ciò significa che non si può mai escludere che la mia privacy venga comunque violata a un certo punto nella corsa infinita tra la protezione dei dati e gli attacchi degli hacker.

I dati sintetici come alternativa

Nel nostro team del Future Cities Laboratory stiamo quindi ricercando alternative ai metodi convenzionali di mascheramento della posizione. Ci siamo chiesti: è possibile generare flussi di dati di localizzazione artificiali con la stessa risoluzione temporale e spaziale degli smartphone, ma senza riprodurre un reale percorso di movimento percorso da una persona?

In pratica, sono pochi i casi in cui è necessario accedere ai dati originali dettagliati di una persona specifica per analizzare i dati sulla mobilità. Spesso è altrettanto possibile lavorare con un set di dati deliberatamente modificato. Generiamo questi flussi di dati sintetici a partire dai dati grezzi, che vengono elaborati solo dal computer e rimangono invisibili all'utente.

"In una 'città sosia' si possono testare le misure del traffico mentre le persone nel mondo reale non ne risentono".Pieter Fourie

I dati sintetici vengono creati in diverse fasi: I dati grezzi sulla posizione dei dispositivi mobili vengono trasmessi in modo sicuro e crittografato e riassunti in aggregati di dati in modo testato e certificato. Questi aggregati possono poi essere utilizzati per generare dati sintetici sulla mobilità che non differiscono dai dati reali in termini di proprietà statistiche. Nel nostro laboratorio, stiamo attualmente lavorando su due metodi diversi per realizzare questo obiettivo.4,5.

Queste tecniche non sono solo un passo avanti nella protezione della privacy, ma ampliano anche il potenziale della modellazione del traffico: i dati sintetici possono essere inseriti nelle moderne simulazioni di mobilità. In questo modo è possibile creare un'intera "città sosia" in cui si possono studiare gli effetti delle decisioni politiche e testare le misure di traffico, senza che gli abitanti del mondo reale ne risentano.

Referenze

1 pagina esternaLe vostre app sanno dov'eravate ieri sera, e non lo tengono segreto, York Times, 10 dicembre 2018
2
pagina esternaIl business della vendita della vostra location, The Daily podcast New York Times, 10 dicembre 2018
3
Chow CY, Mokbel MR: Trajectory privacy in location-based services and data publication, ACM SIGKK Exploration Newsletter 2011, 13: 19, doi: pagina esterna10.1145/2031331.2031335
4
Fourie PJ: Synthesising high-dimensional, agent-based transport demand data from two-dimensional aggregates with iterative multiple histogram matching, ETH di Zurigo Research Collection 2016, doi: pagina esterna10.3929/ethz-b-000118466
5
Cuauhtémoc A, Ordo?ez Medina SA: A time-space model of disaggregated urban mobility from aggregated mobile phone data, ETH di Zurigo Research Collection 2018, doi: pagina esterna10.3929/ethz-b-000268852

JavaScript è stato disabilitato sul tuo browser