Fri. Feb 3rd, 2023
    en flag
    nl flag
    fr flag
    de flag
    pt flag
    es flag

    Note de la rédaction : Compte tenu des exigences juridiques et réglementaires croissantes dans les domaines de la vie privée et de la protection des données personnelles, l'article suivant publié sous la licence Creative Commons Attribution 4.0 fournit des informations et des informations qui soulignent comment les jeux de données anonymisés, même lorsqu'ils sont très incomplets, peuvent posent encore des défis en matière de protection de la vie privée fondés sur des modèles génératifs qui réussissent beaucoup à redéfinir les données anonymisées.

    Estimation du succès des réidentifications dans des jeux de données incomplets à l'aide de modèles génératifs

    Un article de Luc Rocher, Julien M. Hendrickx et Yves-Alexandre de Montjoye publié dans Nature Communications.

    Abstrait

    Bien que de riches données médicales, comportementales et sociodémographiques soient essentielles à la recherche moderne axée sur les données, leur collecte et leur utilisation soulèvent des préoccupations légitimes en matière de protection de la vie privée. L'anonymisation des ensembles de données par la désidentification et l'échantillonnage avant de les partager a été le principal outil utilisé pour répondre à ces préoccupations. Nous proposons ici une méthode générative basée sur la copulation qui peut estimer avec précision la probabilité qu'une personne spécifique soit correctement réidentifiée, même dans un ensemble de données très incomplet. Sur 210 populations, notre méthode obtient des scores ASC pour prédire l'unicité individuelle allant de 0,84 à 0,97, avec un faible taux de fausses découvertes. En utilisant notre modèle, nous constatons que 99,98 % des Américains seraient correctement réidentifiés dans n'importe quel ensemble de données à l'aide de 15 attributs démographiques. Nos résultats suggèrent que même des ensembles de données anonymisées fortement échantillonnés sont peu susceptibles de satisfaire aux normes modernes d'anonymisation établies par le GDPR et de remettre sérieusement en question l'adéquation technique et juridique du modèle de libération et d'oubli de désidentification.

    Introduction

    Au cours de la dernière décennie, la capacité de collecter et de stocker des données personnelles a explosé. Avec les deux tiers de la population mondiale ayant accès à Internet, les dossiers médicaux électroniques devenant la norme et l'essor de l'Internet des objets, il est peu probable que cela s'arrête bientôt. Collectées à grande échelle auprès des services financiers ou médicaux, lors du remplissage de sondages en ligne ou de pages d'aimer, ces données ont un potentiel incroyable pour le bien. Il favorise les progrès scientifiques dans les domaines de la médecine, des sciences sociales et de l'IA et promet de révolutionner le fonctionnement des entreprises et des gouvernements.

    Toutefois, la collecte et l'utilisation à grande échelle de données individuelles détaillées soulèvent des préoccupations légitimes en matière de protection de la vie privée. Les récents contrecoups contre le partage des données médicales du NHS [UK National Health Service] avec DeepMind et la collecte et la vente subséquente de données Facebook à Cambridge Analytica sont les dernières preuves que les gens sont préoccupés par la confidentialité, la confidentialité et l'utilisation éthique de leurs données. Dans un récent sondage, 72 % des citoyens américains ont déclaré s'inquiéter de partager des renseignements personnels en ligne. Entre de mauvaises mains, les données sensibles peuvent être exploitées à des fins de chantage, de surveillance de masse, d'ingénierie sociale ou de vol d'identité.

    La déidentification, processus d'anonymisation des ensembles de données avant de les partager, a été le principal paradigme utilisé dans la recherche et ailleurs pour partager des données tout en préservant la vie privée des personnes. Les lois sur la protection des données dans le monde entier considèrent que les données anonymes ne sont plus des données personnelles permettant d'être librement utilisées, partagées et vendues. Par exemple, les revues universitaires exigent de plus en plus des auteurs qu'ils mettent des données anonymes à la disposition du milieu de la recherche. Bien que les normes relatives aux données anonymes varient, les lois modernes sur la protection des données, telles que le règlement général européen sur la protection des données (RGPR) et la loi sur la protection des données de Californie (CCPA), considèrent que chaque personne dans un ensemble de données doit être protégée pour que l'ensemble de données soit considéré comme anonyme. Cette nouvelle norme plus élevée en matière d'anonymisation est encore mise en évidence par l'introduction dans le RGDPR de données pseudonymes : des données qui ne contiennent pas d'identifiants évidents mais qui peuvent être réidentifiables et qui relèvent donc du champ d'application de la loi.

    Pourtant, de nombreux ensembles de données soi-disant anonymes ont récemment été publiés et réidentifiés. En 2016, les journalistes ont reidentifié les politiciens dans un ensemble de données anonymisé sur l'histoire de la navigation de 3 millions de citoyens allemands, dévoilant leurs informations médicales et leurs préférences sexuelles. Quelques mois auparavant, le ministère australien de la Santé publiait publiquement des dossiers médicaux anonymisés pour 10 % de la population, seulement pour que les chercheurs puissent les réidentifier six semaines plus tard. Auparavant, des études avaient montré que les données sur les congés d'hôpital non identifiés pouvaient être réidentifiées à l'aide des caractéristiques démographiques de base et que les codes diagnostiques, l'année de naissance, le sexe et l'origine ethnique pouvaient identifier de façon unique les patients dans les données des études génomiques. Enfin, les chercheurs ont pu identifier de façon unique des personnes dans des trajectoires de taxi anonymisées à New York, des voyages en vélo-partage à Londres, des données de métro à Riga, ainsi que des jeux de données sur les téléphones mobiles et les cartes de crédit.

    Les chercheurs en contrôle de la divulgation statistique et certaines entreprises contestent la validité de ces réidentifications : comme les ensembles de données sont toujours incomplets, les journalistes et les chercheurs ne peuvent jamais être sûrs d'avoir reidentifié la bonne personne même s'ils ont trouvé une correspondance. Ils affirment que cela donne une forte dénégation plausible aux participants et réduit les risques, rendant ces ensembles de données anonymes, y compris selon le RGDPR. Les ensembles de données déidentifiés peuvent être intrinsèquement incomplets, par exemple parce que l'ensemble de données ne couvre que les patients de l'un des réseaux hospitaliers d'un pays ou parce qu'ils ont été sous-échantillonnés dans le cadre du processus de désidentification. Par exemple, le Bureau du recensement des États-Unis publie seulement 1 % de ses fractions de recensement décennal et d'échantillonnage pour les recensements internationaux vont de 0,07 % en Inde à 10 % dans les pays d'Amérique du Sud. Les entreprises adoptent des approches similaires avec, par exemple, l'ensemble de données du prix Netflix, y compris 10 % de leurs utilisateurs.

    Imaginez une compagnie d'assurance maladie qui décide de lancer un concours pour prédire le cancer du sein et publie un ensemble de données déidentifié de 1000 personnes, 1% de leurs 100 000 personnes assurées en Californie, y compris la date de naissance, le sexe, le code postal et le diagnostic du cancer du sein. L'employeur de John Doe télécharge l'ensemble de données et trouve un (et un seul) enregistrement correspondant à l'information de Doe : un homme vivant à Berkeley, Californie (94720), né le 2 janvier 1968, et diagnostiqué avec un cancer du sein (auto-divulgué par John Doe). Ce dossier contient également les détails de ses traitements récents (ratés) de stade IV. Lorsqu'elle est contactée, la compagnie d'assurance soutient que le jumelage n'équivaut pas à une nouvelle identification : le dossier pourrait appartenir à une des 99 000 autres personnes qu'elle assure ou, si l'employeur ne sait pas si Doe est assurée par cette compagnie ou non, à toute autre personne des 39,5 millions de personnes vivant en Californie.

    Notre article montre comment la probabilité qu'une personne en particulier ait été correctement réidentifiée peut être estimée avec une grande précision, même lorsque l'ensemble de données anonymisées est très incomplet. Nous proposons un modèle graphique génératif qui peut être formé avec précision et efficacité sur des données incomplètes. À l'aide d'ensembles de données sociodémographiques, d'enquêtes et de données sur la santé, nous montrons que notre modèle présente une erreur absolue moyenne (EAM) de 0,018 en moyenne dans l'estimation de l'unicité de la population et une EAM de 0,041 dans l'estimation de l'unicité de la population lorsque le modèle est formé sur un échantillon de population de 1 % seulement. Une fois formé, notre modèle nous permet de prédire si la réidentification d'un individu est correcte avec un taux moyen de fausses découvertes de 6,7 % pour un seuil de 95 % (0,95) (0,95 x 0,95) et un taux d'erreur de 39 % inférieur à celui du meilleur estimateur au niveau de la population réalisable. Étant donné que l'unicité de la population augmente rapidement avec le nombre d'attributs disponibles, nos résultats montrent que la probabilité qu'une réidentification soit correcte, même dans un ensemble de données abondamment échantillonné, peut être estimée avec précision et est souvent élevée. Nos résultats rejettent les affirmations selon lesquelles, d'une part, la réidentification n'est pas un risque pratique et, d'autre part, l'échantillonnage ou la diffusion d'ensembles de données partiels donnent une dénégation plausible. À l'avenir, ils se demandent si les pratiques actuelles de désidentification satisfont aux normes d'anonymisation des lois modernes sur la protection des données telles que le RGPR et la CCPA et soulignent la nécessité de dépasser, d'un point de vue juridique et réglementaire, le modèle de libération et d'oubli de l'identification.

    Lire l'article complet sur Estimer le succès des réidentifications dans des ensembles de données incomplets à l'aide de modèles génératifs

    Document complet

    Estimation du succès des réidentifications dans des jeux de données incomplets à l'aide de modèles génératifs

    Accès direct au document complet (PDF)

    Lecture supplémentaire

    Loi de 2018 sur la protection des renseignements personnels des consommateurs de Californie : quatre extraits éducatifs

    Le SHIELD est maintenant en place : une nouvelle législation pour protéger les New-Yorkais contre les violations de la sécurité des données

    Source : CompleDiscovery