Fri. Feb 3rd, 2023
    en flag
    nl flag
    fr flag
    de flag
    pt flag
    es flag

    Anmerkung der Redaktion: Angesichts der steigenden gesetzlichen und regulatorischen Anforderungen in den Bereichen Datenschutz und Datenschutz bietet der folgende Artikel, der unter der Creative Commons Attribution 4.0 License veröffentlicht wird, Informationen und Einblicke, die hervorheben, wie anonymisierte Datensätze, auch wenn sie schwer unvollständig sind, möglicherweise immer noch Herausforderungen für den Datenschutz, basierend auf generativen Modellen, die einen hohen Grad an Erfolg bei der Neuidentifizierung anonymisierter Daten haben.

    Schätzen des Erfolgs von Neuidentifikationen in unvollständigen Datensätzen mithilfe von generativen Modellen

    Ein Artikel von Luc Rocher, Julien M. Hendrickx und Yves-Alexandre de Montjoye als Publiziert in Nature Communications.

    Abstrakt

    Während umfangreiche medizinische, verhaltensbezogene und soziodemographische Daten der Schlüssel für moderne datengestützte Forschung sind, werfen ihre Erhebung und Verwendung legitime Datenschutzbedenken auf. Die Anonymisierung von Datensätzen durch Deidentifizierung und Probenahme vor der Freigabe war das wichtigste Instrument, um diese Bedenken zu beheben. Wir schlagen hier eine generative copula-basierte Methode vor, die genau einschätzen kann, dass eine bestimmte Person richtig identifiziert wird, selbst in einem schwer unvollständigen Datensatz. Bei 210 Populationen erhält unsere Methode AUC-Scores für die Vorhersage individueller Eindeutigkeit von 0,84 bis 0,97 mit niedriger False-Discovery-Rate. Mit unserem Modell stellen wir fest, dass 99,98% der Amerikaner in jedem Datensatz mit 15 demografischen Attributen korrekt neu identifiziert werden. Unsere Ergebnisse deuten darauf hin, dass selbst stark gesprochene anonymisierte Datensätze wahrscheinlich nicht die modernen Standards für die Anonymisierung der DSGVO erfüllen und die technische und rechtliche Angemessenheit des Deidentifikationsmodells ernsthaft in Frage stellen.

    Einführung

    In den letzten zehn Jahren ist die Fähigkeit, personenbezogene Daten zu sammeln und zu speichern, explodiert. Da zwei Drittel der Weltbevölkerung Zugang zum Internet haben, elektronische medizinische Aufzeichnungen zur Norm werden und das Aufkommen des Internets der Dinge ist unwahrscheinlich, dass dies bald aufhören wird. Sammelt im Maßstab von Finanz- oder medizinischen Dienstleistungen, wenn Sie Online-Umfragen oder Liking-Seiten ausfüllen, haben diese Daten ein unglaubliches Potenzial für das Gute. Es treibt wissenschaftliche Fortschritte in Medizin, Sozialwissenschaften und KI an und verspricht, die Funktionsweise von Unternehmen und Regierungen zu revolutionieren.

    Die umfangreiche Erhebung und Nutzung detaillierter Daten auf Einzelebene wirft jedoch berechtigte Datenschutzbedenken auf. Die jüngsten Gegensätze gegen die Weitergabe von medizinischen Daten des NHS [UK National Health Service] an DeepMind und die Erhebung und den anschließenden Verkauf von Facebook-Daten an Cambridge Analytica sind die neuesten Belege dafür, dass die Menschen über die Vertraulichkeit, den Datenschutz und die ethische Nutzung ihrer Daten besorgt sind. In einer kürzlich durchgeführten Umfrage berichteten 72% der US-Bürger, sich Sorgen über den Austausch persönlicher Daten im Internet zu machen. In den falschen Händen können sensible Daten für Erpressung, Massenüberwachung, Social Engineering oder Identitätsdiebstahl genutzt werden.

    Die Deidentifikation, der Prozess der Anonymisierung von Datensätzen, bevor sie geteilt werden, war das wichtigste Paradigma, das in der Forschung und anderswo verwendet wird, um Daten zu teilen und gleichzeitig die Privatsphäre der Menschen zu bewahren. Datenschutzgesetze weltweit betrachten anonyme Daten als keine personenbezogenen Daten mehr, so dass sie frei genutzt, geteilt und verkauft werden können. Akademische Zeitschriften verlangen beispielsweise zunehmend Autoren, anonyme Daten der Forschungsgemeinschaft zur Verfügung zu stellen. Während die Standards für anonyme Daten unterschiedlich sind, sind moderne Datenschutzgesetze wie die Europäische Datenschutzgrundverordnung (DSGVO) und der California Consumer Privacy Act (CCPA) der Ansicht, dass jede einzelne Person in einem Datensatz geschützt werden muss, damit der Datensatz als anonym betrachtet wird. Dieser neue höhere Standard für die Anonymisierung wird durch die Einführung pseudonymer Daten in die DSGVO weiter deutlich: Daten, die keine offensichtlichen Identifikatoren enthalten, aber möglicherweise wiederidentifizierbar sind und daher in den Geltungsbereich des Gesetzes fallen.

    Dennoch wurden vor kurzem zahlreiche vermeintlich anonyme Datensätze veröffentlicht und neu identifiziert. Im Jahr 2016 identifizierten Journalisten Politiker in einem anonymisierten Browserhistoriedatensatz von 3 Millionen deutschen Bürgern neu, um ihre medizinischen Informationen und ihre sexuellen Vorlieben aufzudecken. Ein paar Monate zuvor veröffentlichte das australische Gesundheitsministerium öffentlich deidentifizierte medizinische Aufzeichnungen für 10% der Bevölkerung nur für Forscher, um sie 6 Wochen später erneut zu identifizieren. Zuvor hatten Studien gezeigt, dass deidentifizierte Krankenhausentladungsdaten anhand grundlegender demografischer Attribute neu identifiziert werden konnten und dass Diagnosecodes, Geburtsjahr, Geschlecht und ethnische Zugehörigkeit Patienten in genomischen Studien eindeutig identifizieren konnten. Schließlich konnten Forscher Personen in anonymisierten Taxi-Flugbahnen in New York City, Fahrrad-Sharing-Reisen in London, U-Bahndaten in Riga sowie Mobiltelefon-und Kreditkartendatensätzen eindeutig identifizieren.

    Statistische Offenlegungskontrolle Forscher und einige Unternehmen bestritten die Gültigkeit dieser Neuidentifikationen: Da Datensätze immer unvollständig sind, können Journalisten und Forscher nie sicher sein, dass sie die richtige Person neu identifiziert haben, selbst wenn sie eine Übereinstimmung gefunden haben. Sie argumentieren, dass dies den Teilnehmern eine starke plausible Ablehnung bietet und die Risiken verringert, so dass solche deidentifizierten Datensätze anonymisiert werden, auch nach DSGVO. Entidentifizierte Datensätze können intrinsisch unvollständig sein, z. B. weil der Datensatz nur Patienten eines der Krankenhausnetze eines Landes erfasst oder weil sie im Rahmen des Deidentifizierungsverfahrens subprobeniert wurden. Beispielsweise gibt das US-Census Bureau nur 1% ihrer zehnjährigen Zählung frei, und Stichprobenfraktionen für die internationale Volkszählung reichen von 0,07% in Indien bis zu 10% in südamerikanischen Ländern. Unternehmen gehen ähnliche Ansätze an, z. B. mit dem Netflix-Preis-Datensatz, der 10% ihrer Nutzer umfasst.

    Stellen Sie sich eine Krankenkasse vor, die sich für einen Wettbewerb zur Vorhersage von Brustkrebs entscheidet und einen deidentifizierten Datensatz von 1000 Personen veröffentlicht, 1% ihrer 100.000 Versicherten in Kalifornien, einschließlich Geburtsdatum, Geschlecht, Postleitzahl und Brustkrebsdiagnose. John Does Arbeitgeber lädt den Datensatz herunter und findet einen (und nur einen) Datensatz, der Does Informationen entspricht: Männer leben in Berkeley, CA (94720), geboren am 2. Januar 1968, und diagnostiziert Brustkrebs (selbst offenbart von John Doe). Diese Aufzeichnung enthält auch die Details seiner letzten (gescheiterten) Phase IV Behandlungen. Bei Kontaktaufnahme argumentiert die Versicherungsgesellschaft, dass Matching nicht gleich Wiederidentifikation ist: Die Aufzeichnung könnte 1 der 99.000 anderen Personen, die sie versichern, oder, wenn der Arbeitgeber nicht weiß, ob Doe von diesem Unternehmen versichert ist oder nicht, zu irgendeinem der 39,5 Mio. Menschen gehören, die in Kalifornien leben.

    Unser Papier zeigt, wie die Wahrscheinlichkeit einer korrekten Neuidentifizierung einer bestimmten Person mit hoher Genauigkeit geschätzt werden kann, selbst wenn der anonymisierte Datensatz stark unvollständig ist. Wir schlagen ein generatives grafisches Modell vor, das präzise und effizient auf unvollständige Daten geschult werden kann. Mit soziodemographischen, Erhebungs- und Gesundheitsdatensätzen zeigen wir, dass unser Modell bei der Schätzung der Eindeutigkeit der Grundgesamtheit einen mittleren absoluten Fehler (MAE) von 0,018 und bei der Schätzung der Eindeutigkeit der Grundgesamtheit von 0,041 aufweist, wenn das Modell nur für eine Stichprobe von 1% der Grundgesamtheit trainiert wird. Einmal trainiert, erlaubt unser Modell vorherzusagen, ob die Wiederidentifizierung einer Person korrekt ist, mit einer durchschnittlichen Fehlerkennungsrate von 6,7% für eine 95% -Schwelle (πx^ 0,95) (ξx^ 0,95) und einer Fehlerquote um 39% niedriger als der beste erreichbare Schätzer auf Bevölkerungsebene. Da die Eindeutigkeit der Population mit der Anzahl der verfügbaren Attribute schnell zunimmt, zeigen unsere Ergebnisse, dass die Wahrscheinlichkeit, dass eine erneute Identifizierung selbst in einem Datensatz mit hoher Stichprobe korrekt ist, genau geschätzt werden kann und oft hoch ist. Unsere Ergebnisse weisen die Behauptungen zurück, dass eine erneute Identifizierung kein praktisches Risiko darstellt, und zweitens die Stichprobenbildung oder Freigabe von Teildatensätzen eine plausible Verweigerung darstellen. In Zukunft stellen sie die Frage, ob derzeitige Deidentifizierungspraktiken den Anonymisierungsstandards moderner Datenschutzgesetze wie DSGVO und CCPA entsprechen, und betonen die Notwendigkeit, aus rechtlicher und regulatorischer Perspektive über das Modell zur Freigabe und Vergessenheit hinaus zu gehen.

    Lesen Sie den vollständigen Artikel unter Schätzung des Erfolgs von Re-Identifikationen in unvollständigen Datasets mit generativen Modellen

    Vollständiges Papier

    Schätzen des Erfolgs von Neuidentifikationen in unvollständigen Datensätzen mithilfe von generativen Modellen

    Direkter Zugriff auf vollständiges Papier (PDF)

    Zusätzliche Lesung

    Der California Consumer Privacy Act von 2018: Vier pädagogische Auszüge

    Das SHIELD ist jetzt UP: Neue Gesetzgebung zum Schutz von New Yorkern vor Datensicherheitsverletzungen

    Quelle: ComplexDiscovery