Fri. Feb 3rd, 2023
    en flag
    nl flag
    fr flag
    de flag
    pt flag
    es flag

    Opmerking van de redacteur: Gezien de toenemende wettelijke en reglementaire vereisten op het gebied van privacy en bescherming van persoonsgegevens, biedt het volgende artikel gepubliceerd onder de Creative Commons Attribution 4.0-licentie informatie en inzicht die benadrukt hoe geanonimiseerde datasets, zelfs wanneer ze zwaar onvolledig zijn, kunnen stellen nog steeds privacyproblemen op basis van generatieve modellen die een groot succes hebben bij het opnieuw identificeren van geanonimiseerde gegevens.

    Het succes van heridentificaties in onvolledige datasets schatten met behulp van generatieve modellen

    Een artikel van Luc Rocher, Julien M. Hendrickx en Yves-Alexandre de Montjoye zoals gepubliceerd in Nature Communications.

    Abstract

    Hoewel rijke medische, gedragsmatige en socio-demografische gegevens de sleutel zijn tot modern data-gedreven onderzoek, doen hun verzameling en gebruik legitieme privacyproblemen rijzen. Het anonimiseren van datasets door middel van de-identificatie en bemonstering voordat ze worden gedeeld, is het belangrijkste instrument dat is gebruikt om deze problemen aan te pakken. We stellen hier een generatieve copula-gebaseerde methode voor die nauwkeurig de kans kan inschatten dat een bepaalde persoon correct wordt hergeïdentificeerd, zelfs in een zwaar onvolledige dataset. Bij 210 populaties behaalt onze methode AUC-scores voor het voorspellen van individuele uniciteit variërend van 0,84 tot 0,97, met een lage vals-detectiegraad. Met behulp van ons model, vinden we dat 99,98% van de Amerikanen correct zou worden hergeïdentificeerd in elke dataset met behulp van 15 demografische kenmerken. Onze resultaten suggereren dat zelfs zwaar bemonsterde geanonimiseerde datasets waarschijnlijk niet zullen voldoen aan de moderne normen voor anonimisering zoals uiteengezet door de GDPR en de technische en juridische geschiktheid van het de-identificatie release-and-forget model ernstig aanvechten.

    Inleiding

    In het laatste decennium is de mogelijkheid om persoonlijke gegevens te verzamelen en op te slaan explosief. Nu tweederde van de wereldbevolking toegang heeft tot internet, elektronische medische dossiers de norm worden en de opkomst van het Internet of Things, is het onwaarschijnlijk dat dit binnenkort zal stoppen. Verzameld op schaal van financiële of medische diensten, bij het invullen van online enquêtes of het leuk vinden van pagina's, deze gegevens hebben een ongelooflijk potentieel voor het goede. Het drijft wetenschappelijke vooruitgang op het gebied van geneeskunde, sociale wetenschap en AI en belooft een revolutie in de manier waarop bedrijven en overheden functioneren.

    De grootschalige verzameling en het gebruik van gedetailleerde gegevens op individueel niveau roept echter legitieme privacybezwaren op. De recente tegenslagen tegen het delen van medische gegevens van NHS [UK National Health Service] met DeepMind en de verzameling en daaropvolgende verkoop van Facebook-gegevens aan Cambridge Analytica zijn de laatste bewijzen dat mensen bezorgd zijn over de vertrouwelijkheid, privacy en ethisch gebruik van hun gegevens. In een recente enquête meldde 72% van de Amerikaanse burgers zich zorgen te maken over het online delen van persoonlijke informatie. In verkeerde handen kunnen gevoelige gegevens worden gebruikt voor chantage, massale surveillance, social engineering of identiteitsdiefstal.

    De-identificatie, het proces van het anonimiseren van datasets voordat ze worden gedeeld, is het belangrijkste paradigma dat wordt gebruikt in onderzoek en elders om gegevens te delen met behoud van de privacy van mensen. Gegevensbeschermingswetten wereldwijd beschouwen anonieme gegevens als geen persoonlijke gegevens meer, waardoor ze vrij kunnen worden gebruikt, gedeeld en verkocht. Academische tijdschriften vereisen bijvoorbeeld steeds vaker dat auteurs anonieme gegevens beschikbaar stellen aan de onderzoeksgemeenschap. Hoewel de normen voor anonieme gegevens variëren, zijn moderne wetten inzake gegevensbescherming, zoals de Europese Algemene Verordening Gegevensbescherming (GDPR) en de California Consumer Privacy Act (CCPA), van mening dat elke persoon in een dataset moet worden beschermd om als anoniem te worden beschouwd. Deze nieuwe hogere norm voor anonimisering wordt verder duidelijk gemaakt door de introductie in de AVG van pseudonieme gegevens: gegevens die geen duidelijke identificatiemiddelen bevatten maar heridentificeerbaar zijn en dus binnen de reikwijdte van de wet vallen.

    Toch zijn er onlangs talrijke zogenaamd anonieme datasets vrijgegeven en opnieuw geïdentificeerd. In 2016 heridentificeerden journalisten politici in een geanonimiseerde browsegeschiedenisdataset van 3 miljoen Duitse burgers, die hun medische informatie en hun seksuele voorkeuren blootstelden. Een paar maanden eerder, het Australische ministerie van Volksgezondheid openbaar gede-identificeerde medische dossiers voor 10% van de bevolking alleen voor onderzoekers om ze te heridentificeren 6 weken later. Daarvoor hadden studies aangetoond dat gedeïdentificeerde ziekenhuisontladingsgegevens opnieuw konden worden geïdentificeerd met behulp van fundamentele demografische kenmerken en dat diagnostische codes, geboortejaar, geslacht en etniciteit patiënten in genomische onderzoeksgegevens uniek konden identificeren. Ten slotte waren onderzoekers in staat om op unieke wijze individuen te identificeren in geanonimiseerde taxibanen in NYC, fiets-sharing trips in Londen, metro data in Riga, en mobiele telefoon en credit card datasets.

    Onderzoekers van statistische openbaarmaking en sommige bedrijven betwisten de geldigheid van deze heridentificaties: aangezien datasets altijd onvolledig zijn, kunnen journalisten en onderzoekers er nooit zeker van zijn dat ze de juiste persoon hebben hergeïdentificeerd, zelfs als ze een overeenkomst hebben gevonden. Zij stellen dat dit een sterke plausibele ontkenning biedt aan deelnemers en de risico's vermindert, waardoor dergelijke gede-identificeerde datasets anoniem worden, ook volgens de GDPR. Gede-identificeerde datasets kunnen intrinsiek onvolledig zijn, bijvoorbeeld omdat de dataset alleen betrekking heeft op patiënten van een van de ziekenhuisnetwerken in een land of omdat ze in substeekproef zijn opgenomen als onderdeel van het de-identificatieproces. Het U.S. Census Bureau geeft bijvoorbeeld slechts 1% van hun tienjarige volkstelling en steekproeffracties voor internationale volkstelling vrij van 0,07% in India tot 10% in Zuid-Amerikaanse landen. Bedrijven hanteren vergelijkbare benaderingen met bijvoorbeeld de Netflix Prize-dataset, inclusief 10% van hun gebruikers.

    Stel je een ziektekostenverzekeraar voor die besluit om een wedstrijd uit te voeren om borstkanker te voorspellen en publiceert een gede-identificeerde dataset van 1000 mensen, 1% van hun 100.000 verzekerden in Californië, met inbegrip van mensen geboortedatum, geslacht, postcode en diagnose van borstkanker. John Doe's werkgever downloadt de dataset en vindt één (en slechts één) record dat overeenkomt met Doe's informatie: man woont in Berkeley, CA (94720), geboren op 2 januari 1968, en gediagnosticeerd met borstkanker (zelf bekendgemaakt door John Doe). Dit record bevat ook de details van zijn recente (mislukte) fase IV behandelingen. Wanneer contact wordt opgenomen, stelt de verzekeringsmaatschappij dat matching niet gelijk is aan heridentificatie: het record zou kunnen behoren tot 1 van de 99.000 andere personen die ze verzekeren of, als de werkgever niet weet of Doe verzekerd is door dit bedrijf of niet, aan iemand anders van de 39,5 miljoen mensen die in Californië wonen.

    Ons artikel laat zien hoe de kans dat een specifiek individu correct is hergeïdentificeerd, met hoge nauwkeurigheid kan worden geschat, zelfs wanneer de geanonimiseerde dataset zwaar onvolledig is. Wij stellen een generatief grafisch model voor dat nauwkeurig en efficiënt kan worden getraind op onvolledige gegevens. Met behulp van socio-demografische, enquête- en gezondheidsdatasets laten we zien dat ons model een gemiddelde absolute fout (MAE) vertoont van gemiddeld 0,018 in het schatten van populatie-uniciteit en een MAE van 0,041 in het schatten van populatie-uniciteit wanneer het model wordt getraind op slechts een 1% populatiesteekproef. Als we eenmaal getraind zijn, kunnen we voorspellen of de heridentificatie van een individu correct is met een gemiddelde vals-detectiepercentage van 6,7% voor een 95% drempel (0,95) (ξx^ 0,95) en een foutenpercentage 39% lager dan de best haalbare schatting op populatieniveau. Met het aantal beschikbare attributen, tonen onze resultaten aan dat de kans dat een heridentificatie correct is, zelfs in een zwaar bemonsterde dataset, nauwkeurig kan worden geschat en vaak hoog is. Onze resultaten wijzen de beweringen af dat, ten eerste, heridentificatie geen praktisch risico is en ten tweede, het bemonsteren of vrijgeven van gedeeltelijke datasets een plausibele ontkenning bieden. In de toekomst vragen ze zich af of de huidige de-identificatiepraktijken voldoen aan de anonimisatienormen van moderne gegevensbeschermingswetten zoals GDPR en CCPA en benadrukken ze de noodzaak om vanuit juridisch en regelgevend perspectief verder te gaan dan het de-identificatie release-and-forget model.

    Lees het volledige artikel op het schatten van het succes van heridentificaties in onvolledige datasets met behulp van generatieve modellen

    Compleet papier

    Het succes van heridentificaties in onvolledige datasets schatten met behulp van generatieve modellen

    Directe toegang tot volledig papier (PDF)

    Aanvullend lezen

    De California Consumer Privacy Act van 2018: vier educatieve uittreksels

    Het SHIELD is nu UP: Nieuwe wetgeving om New Yorkers te beschermen tegen inbreuken op gegevensbeveiliging

    Bron: ComplexDiscovery