Wir wissen, was du letzten November getan hast

Privatsphäre-Risiken durch veröffentlichte Mobilitätsdaten am Beispiel der freemove-Datenerhebung im November 2022

Hintergrund

Im November 2022 führten wir im BMBF-geförderten Projekt freemove eine partizipative Datenerhebung unter Studierenden durch. Mithilfe des Moving Lab, einer Smartphone-Applikation des Deutschen Zentrum für Luft- und Raumfahrt (DLR) wurden ca. 80 Freiwillige zwei Wochen lang per GPS getrackt. Herausgekommen ist ein Datensatz mit 1.820 einzelnen Wegen in und um Berlin von insgesamt ungefähr 12.000 Kilometern.

Der Datensatz besteht aus Fahrtaufzeichnungen. Das heißt GPS-Koordinaten und Zeitstempeln von Wegen, die die Teilnehmenden zurückgelegt haben. Die Aufzeichnung einer Fahrt musste dabei aktiv gestartet werden.

Aus Datenschutzgründen werden in diesem Beitrag fiktive Daten verwendet.

Viele Hoffnungen der digitalen, nachhaltigen Verkehrswende liegen auf solchen Bewegungsdaten. Bewegungsdaten sollen bei bedarfsangepasstem Infrastruktur- und ÖPNV-Ausbau helfen, Routing-Algorithmen verbessern, Verkehrsmodelle detailgetreuer arbeiten lassen. So kann beispielsweise „seamless mobility“, also das möglichst nahtloses Nutzen und Buchen unterschiedlicher Verkehrsmittel von ÖPNV bis geteilter Mobilität, ermöglicht werden.

Wenn der vorliegende Datensatz Potenzial für solch gesellschaftlichen Wert hat, sollten wir ihn also, so wie er ist, der Allgemeinheit zur Verfügung stellen? Solange „Identifier“, also Einzelpersonen identifizierende Merkmale wie Namen und Adressen entfernt wurden, ist das ja unbedenklich — oder etwa nicht?

Teil 1

Du bist einzigartig, zumindest sind es deine Bewegungsdaten!

Die Re-Identifizierung einer Person im Datensatz in nur wenigen Schritten. Ein Selbstversuch.

Re-Identifizierung anhand von Mobilitätsdaten

Wie einfach lässt sich eine Person im Datensatz identifizieren, obwohl ihr Name und andere (Quasi-)Identifikatoren, also eindeutig identifizierende Merkmale, entfernt wurden (die Fahrten einer Person sind jedoch noch über eine gemeinsame User-ID verknüpft)? Im Datensicherheitsdiskurs geht es oft um die realistische Einschätzung des „Re-Identifizierungsrisikos“. Wie wahrscheinlich ist es, dass eine Person in einem Datensatz gegen ihren Willen identifiziert werden kann und damit Eingriffe in ihre Privatsphäre erleidet? Wie wenig Information reicht aus, um jemanden eindeutig zu bestimmen? Diese Überlegungen helfen bei der Bewertung von Datenschutzmaßnahmen und dienen letztendlich dem wirkungsvollen Schutz der Individuen.

Der Versuchsaufbau

Um zu erproben, wie leicht wir eine Person in dem Datensatz wiederfinden, hat sich Markus, ein Mitarbeiter des freemove-Projekts, einverstanden erklärt, dass die Datenanalystin des Projekts, Alexandra, versuchen darf, ihn in den Daten zu identifizieren.

Als Vorwissen darf Alexandra zunächst nur Markus' Namen und Aussehen verwenden. Geübt im Recherchieren ist sie natürlich auch! Zeitstempel in den Daten geben Auskunft über den Erhebungszeitraum. Wenn eine Person Aktivitäten gerne über Social Media teilt, könnte hier schnell ein Match gefunden werden. Wenn beispielsweise Fotos des letzten Restaurant- oder Barbesuchs gepostet wurden, gäbe es bereits mit hoher Wahrscheinlichkeit keine weitere Person im Datensatz, die zeitgleich dort gewesen ist.

Obwohl zur Visualisierung fiktive Daten verwendet werden, hat die Rekonstruktion des Bewegungsprofils auf beschriebene Weise stattgefunden.

Abgleichen mit Online-Profilen

Eine schnelle Recherche auf den üblichen sozialen Netzwerken (Instagram, Facebook, Twitter) zeigt, dass Markus während des Erhebungszeitraums offenbar keine Beiträge auf Social Media geteilt hat.

Dafür lässt sich über sein LinkedIn-Profil einfach sein Arbeitgeber und damit das CityLAB Berlin als Arbeitsort identifizieren. Über Unternehmenswebseiten und Plattformen wie LinkedIn oder Xing sind diese Informationen für viele Personen einfach verfügbar.

Das CityLAB Berlin wurde nur von drei Personen aus dem Datensatz aufgesucht.

Der Standort des Büros am ehemaligen Tempelhofer Flughafen lässt sich nun einfach ermitteln. Es gibt jetzt bereits nur noch drei Menschen im Datensatz, die diesen Standort besucht haben; alle waren mehrere Male dort:

Person A
Person B
Person C

Die GPS-Daten sind genau genug, um den Fußweg zum Eingang des CityLAB zu erkennen, also können andere Ziele im ehemaligen Flughafengebäude mit ausreichender Sicherheit ausgeschlossen werden.

Nicht nur der Ort, sondern auch die zugehörige Uhrzeit des Aufenthalts bergen Informationen über Zielpersonen.

Von den drei verbliebenen Personen kann Alexandra schnell eine weitere ausschließen: Sie erinnert sich an einen gemeinsamen Projekt-Termin mit Markus, der zeitgleich mit einer der Fahrten stattfand. Daraus folgt, dass eine der drei Personen zum Zeitpunkt des besagten Termins unterwegs war und diese Person somit nicht Markus sein kann.

Übrig bleiben bereits jetzt nur noch zwei Personen.

Person A
Person B

Eine genaue Betrachtung der besuchten Orte fördert leicht weitere Hinweise zur eindeutigen Identifizierung zutage.

Nun schauen wir uns die gesamten Bewegungsprofile der zwei übrig gebliebenen Personen an. Beide Personen scheinen im Osten Berlins zu wohnen, da hier die meisten Fahrten starten oder enden.

Auffällige Fahrten als Einfallstor zur Identifizierung

Einzelne Fahrten, die weit aus diesen gewohnten Bewegungsradien herausführen, sehen wir uns genauer an und finden schnell eine, die an einem Samstag tief in den Westen, an die Sportanlage Westend in Charlottenburg, führt. Dort verbringt eine der beiden Personen dreieinhalb Stunden.

Erfolgreiche Re-Identifizierung in wenigen Schritten

Markus’ Name fördert tatsächlich nach einer kurzen Suche einen Fußballverein, den passenden Spieltermin mitsamt Ergebnis zutage, womit wir ihn eindeutig identifiziert haben und sein gesamtes Bewegungsprofil rekonstruieren konnten.

Ob Arbeitstermine oder Freizeitgestaltung – alle besuchten Orte bergen potenziell Informationen, die im Ausschlussverfahren zur Re-Identifizierung verwendet werden können.

Markus ist also eindeutig identifiziert.

Welche Informationen aus Bewegungsprofilen gelesen werden können und welche Risiken daraus entstehen.

Aus den drei Zusammenhängen ergibt sich Markus’ Profil und damit einhergehend, je nach Tracking-Häufigkeit, nahezu jeder seiner Standorte über den Zeitraum der zwei Erhebungswochen, mitsamt aller Informationen, die dadurch für Dritte ableitbar werden. Die Daten können Auskunft über Wohnadresse, Alltagsroutinen und Haushaltsmitglieder geben. Informationen über Wohnorte und Bewegungsprofile ermöglichen Überwachung und diese öffentlich preiszugeben stellt somit bereits eine Verletzung der Privatsphäre dar. Der Schutz personenbezogener Daten und insbesondere des Privatlebens sollte bestmöglich sein, und das ist auch an unterschiedlichen Stellen rechtlich institutionalisiert. Deswegen sind Standortdaten auch im Rahmen der Datenschutz-Grundverordnung (DSGVO) als persönliche Daten geschützt. Selbst die Möglichkeit standortbasierte Werbung zu schalten ist rechtlich gesehen eine Beeinträchtigung darin, freie Entscheidungen zu treffen.

Zusätzlich entstehen Risiken in Kombination mit weiteren Informationen: Vielleicht sind Straßen befahren worden, die gesperrt sind? Vielleicht ist ein Geschwindigkeitslimit nicht eingehalten worden? Besuche von ärztlichen Einrichtungen, Stätten der Religionsausübung oder Orte, die sexuelle Präferenzen nahelegen, lassen Schlüsse über weitere sensible Informationen zu.

Alleine in unserem Datensatz starteten oder endeten 17 Fahrten an einem Krankenhaus oder einer Arztpraxis und 62 an einer Bar oder einem Nachtclub*. Vielleicht stellt es für eine Person kein Problem dar, wenn ihr Vorsorgetermin beim Zahnarzt öffentlich bekannt ist, jedoch könnte es für eine andere problematisch sein, wenn ihr Arbeitgeber weiß, dass sie wöchentlich zur Behandlung einer chronischen Krankheit ins Krankenhaus fährt, oder zu HIV-Spezialist:innen. Vielleicht postet eine Person ihren Barbesuch öffentlich auf Instagram, eine andere möchte jedoch nicht, dass ihr Besuch eines Queer Clubs bekannt wird, oder dass ihre Krankenkasse über die Frequenz ihrer (Raucher-)Barbesuche informiert ist.

* Informationen zu Standorten von Points of Interest wurden über OpenStreetMap erlangt. Die räumliche Nähe des Start- oder Zielpunktes zu den genannten Orten bedeutet nicht zwangsläufig, dass diese auch aufgesucht wurden. Betrachtungen weiterer Kontextinformationen, wie Uhrzeit oder Aufenthaltsdauer, könnten allerdings leicht die Schlussfolgerung nahelegen.

Teil 2

Du bist einzigartig – und bleibst es!

Wieso Anonymisierungstechniken kaum wirken

Anonymisierung durch Vergröberung

Um Rückschlüsse auf Personen zu verhindern, können Daten über das Entfernen von (Quasi-)Identifikatoren hinaus „anonymisiert“ werden. Daten gelten als anonym, wenn der Personenbezug entfernt wurde und keine Re-Identifizierung von Einzelpersonen mehr möglich ist. Hierfür gibt es unterschiedliche Ansatzpunkte: Einer ist die Generalisierung, oder auch Vergröberung, sprich, die feingranularen Rohdaten werden in Bezug auf Orte durch grobe Rasterzellen und die genauen Zeitstempel durch gröbere Zeitfenster ersetzt.

Um das Konzept zu verdeutlichen, spielen wir den Vorgang an einem simplen Beispiel mit zwei Fahrten von Person A und Person B durch.

Hier wird bereits ein Großteil des Nutzens durch die entfernten Zeitstempel eingebüßt. Bei der Analyse von Verkehrsflüssen spielen Uhrzeiten beispielsweise eine wichtige Rolle.

Ein weiterer möglicher Schritt ist die Entfernung der exakten Wegverläufe woraufhin die Daten nur noch Start und Ziel der Wege beinhalten.

Wie der Grad der Anonymisierung berechnet werden kann

Nun stellt sich die Frage, wie sehr man generalisieren muss, um Anonymität zu gewährleisten. Hierbei fokussieren wir uns auf den Aspekt der „Einzigartigkeit“. Wenn die Kombination von Orten nur von einer einzigen Person besucht wurde, gilt dieses Bewegungsmuster als einzigartig.

Beispielsweise ist die Kombination von einer bestimmten Universität und einem genauen Wohnort sehr wahrscheinlich einzigartig für ein:e Student:in. Nun kommen wir zurück zur Generalisierung und fragen uns, wie grob ein räumliches Raster sein muss, damit mindestens zwei Personen die gleichen Bewegungsmuster aufweisen, also kein Bewegungsmuster einzigartig ist. Ein weiterer relevanter Aspekt ist hierbei die Menge an Daten pro Person. Sprich, wenn ich nur zwei Punkte einer Person habe, ist es wahrscheinlicher, dass eine andere Person die gleichen zwei Punkte besucht hat, als wenn zehn unterschiedliche besuchte Orte sich zwischen zwei Personen decken müssen.

Um dies zu quantifizieren, haben wir berechnet, wie viele Personen in unserem Datensatz „einzigartig“ sind, in Abhängigkeit von der Größe der Rasterzellen und der Anzahl Punkte p. Dabei wurden zufällig für jede Person p Punkte aus der Gesamtmenge an allen von der Person besuchten Zellen gezogen und verglichen, ob irgendeine andere Person die gleiche Kombination an Zellen ebenfalls besucht hat. Die Reihenfolge und Zeitstempel der Zellen haben wir hierbei vernachlässigt.

In diesem Beispiel hat Person A vier Orte besucht. Damit ihr Datensatz nicht einzigartig ist, muss mindestens eine andere Person ebenfalls die gleichen vier Orte besucht haben.

Das ist in unserem Beispiel bei der gewählten Rastergröße nicht der Fall, also selbst wenn nicht der exakte Ort, sondern nur die Zelle betrachtet wird, ist die Kombination einzigartig.

Reduzieren wir nun die Anzahl der berücksichtigten Punkte auf zwei (p=2, zufällig gewählt), ist Person A nun nicht mehr einzigartig, denn Person B hat die gleichen Orte, also die hervorgehobenen Zellen, ebenfalls besucht.

Kommen wir nun zurück zu unserem Datensatz und berechnen, wie viele Personen einzigartig sind, abhängig von der Rastergröße und der Anzahl Punkte p.

Wie man anhand dieses Diagramms sehen kann, sind bei einem Raster mit 500 m x 500 m großen Zellen bereits über 90% der Personen einzigartig, wenn nur zwei besuchte Zellen bekannt sind.

Bei 2 km x 2 km großen Zellen sind dies immerhin noch ca. 50% der Personen. Wenn man sich vor Augen führt, wie groß diese Fläche ist, wird schnell klar, dass diese Generalisierung die Nützlichkeit der Daten stark reduziert, wenngleich das Re-Identifizierungsrisiko weiterhin vergleichsweise hoch ist, da jede zweite Person immer noch einzigartig ist.

Bei nur fünf bekannten Orten pro Person macht die Auflösung praktisch keinen Unterschied mehr – fast alle Personen sind einzigartig.

K‐Anonymität als Beispiel für eine formales Datenschutzmodell

Die zuvor beschriebene Berechnung der Einzigartigkeit ist verwandt mit dem Datenschutzmodell der k-Anonymität. Bietet ein Datensatz k-Anonymität, ist gewährleistet, dass mindestens k Personen die gleiche Kombination an (Quasi-)Identifikatoren teilen und somit keine Person einzigartig, also eindeutig identifizierbar, ist.

K‐Anonymität ist ein Datenschutzmodell, das sich für Bewegungsdaten folgendermaßen übersetzen lässt: Eine bestimmte (jede) Abfolge von Punkten muss k mal vorkommen, damit man von „anonymen Daten“ sprechen kann. Alle Daten, die dieser Anforderung nicht entsprechen, werden üblicherweise entfernt oder durch weitere Generalisierung den restlichen Daten angeglichen.

k ist somit ein Parameter, mit dem man gewährleistete Anonymität quantifizieren, also in Zahlen ausdrücken kann. Wie oben gezeigt, wäre für unseren Datensatz ein k von 2, sprich, eine Person ist nicht „einzigartig“ und eine Abfolge von Punkten muss entsprechend mindestens zweimal vorkommen, bereits nur schwer umsetzbar.

Es gibt weitere, komplexere Verfahren der Anonymisierung, alle gehen jedoch auf eine Art und Weise mit Einschränkungen entweder im Bereich der Privatsphäre-Gewährleistung, oder wiederum der sinnvollen Datennutzung einher.

Teil 3

Woran wir im Forschungsprojekt freemove arbeiten

Wie bekommt man nun diese zwei sich gegenüberstehenden Pole, Sensibilität der Daten und Nutzungspotenzial, vereinbart?

In unserem Projekt erforschen wir, wie Mobilitätsdaten mit einem guten Gewissen genutzt werden können: mit besonderer Rücksicht auf die persönlichen, privaten Informationen, die sie beinhalten können, aber auch auf deren potenziell großen Nutzen für das Gemeinwohl. Wenn Bewegungsdaten gesammelt werden, wollen wir dass ihr und wir, als Nutzende, bewusste und reflektierte Entscheidungen treffen können. Dazu arbeiten wir beispielsweise an Kommunikationsmethoden, Vereinfachungen und grafischen Elementen.

Neben Kommunikation forschen wir aber auch an der „anderen Seite“ – den Daten selbst: Technische Anonymisierung. Wie oben gezeigt, reicht das einfache Entfernen von personenbezogenen Attributen wie Name, Geburtsdatum und Adresse nicht aus, um Daten zu anonymisieren. Es gibt allerdings weitere Verfahren aus unterschiedlichen Bereichen der Data Science, des Machine Learning, welche teils vielversprechende Lösungsansätze für den Mobilitätsdatensektor bereithalten.

Was heißt das nun am Ende?

Zunächst einmal gilt es, in Gesprächen zu Mobilitätsdaten zu spezifizieren, wovon man genau spricht. Es gibt Verkehrsdaten aus Messungen, Zählungen, Haushaltsbefragungen, offene Daten zu ÖPNV, Fahrplänen und Infrastruktur. Und es gibt Bewegungsdaten, die mehr oder weniger genaue Wege von Individuen beinhalten – genauer wären GPS-Standortdaten, weniger genau beispielsweise Daten aus dem Telekommunikationsnetz.

Derzeit werden Bewegungsdaten an vielen Stellen gesammelt. Beispielsweise über Smartphones, nach Einwilligung der Nutzer:innen, die Services wie Routing-/ÖPNV- oder Sharing-Apps nutzen möchten und wissen wollen, wie sie von A nach B kommen: hierbei entstehen Bewegungsdaten mehr oder weniger nebenbei. Diese Daten verbleiben meist bei den sammelnden Unternehmen, wo sie dem Gemeinwohl nur bedingt zugutekommen.

Gleichzeitig ist es nicht einfach, wie wir oben gesehen haben, diese Daten öffentlich und gleichzeitig sicher zugänglich zu machen. Eine Datenschutz-konforme Weitergabe von solchen Daten beinhaltet jedes Mal aufs Neue die Diskussion um den Grad der Anonymisierung und ob die Daten im Anschluss noch ihren Zweck erfüllen.

Lasst uns sprechen!