Fri. Feb 3rd, 2023
    en flag
    nl flag
    fr flag
    de flag
    pt flag
    es flag

    Nota do Editor: Dado os crescentes requisitos legais e regulamentares nas áreas de privacidade e proteção de dados pessoais, o seguinte artigo publicado sob a Licença Creative Commons Attribution 4.0 fornece informações e informações que destacam como conjuntos de dados anônimos, mesmo quando muito incompletos, podem ainda colocam desafios de privacidade baseados em modelos generativos que têm um alto grau de sucesso na re-identificação de dados anônimos.

    Estimando o Sucesso de Reidentificações em Conjuntos de Dados Incompletos Usando Modelos Generativos

    Um artigo de Luc Rocher, Julien M. Hendrickx, e Yves-Alexandre de Montjoye, publicado na Nature Communications.

    Abstrato

    Embora dados médicos, comportamentais e sociodemográficos ricos sejam fundamentais para pesquisas modernas orientadas por dados, sua coleta e uso suscitam preocupações legítimas de privacidade. Anonymizar conjuntos de dados por meio da desidentificação e amostragem antes de compartilhá-los tem sido a principal ferramenta usada para lidar com essas preocupações. Propomos aqui um método generativo baseado em cópula que pode estimar com precisão a probabilidade de uma pessoa específica ser corretamente re-identificada, mesmo em um conjunto de dados altamente incompleto. Em 210 populações, nosso método obtém escores AUC para prever a singularidade individual variando de 0,84 a 0,97, com baixa taxa de falso-descoberta. Usando nosso modelo, descobrimos que 99,98% dos americanos seriam corretamente re-identificados em qualquer conjunto de dados usando 15 atributos demográficos. Nossos resultados sugerem que mesmo conjuntos de dados anônimos com amostragem pesada não satisfaçam os padrões modernos de anonimato estabelecidos pelo RGPD e desafiem seriamente a adequação técnica e legal do modelo de liberação e esquecimento de identificação.

    Introdução

    Na última década, a capacidade de coletar e armazenar dados pessoais explodiu. Com dois terços da população mundial tendo acesso à Internet, registros médicos eletrônicos se tornando a norma e o aumento da Internet das Coisas, é improvável que isso pare em breve. Coletados em escala a partir de serviços financeiros ou médicos, ao preencher pesquisas online ou gostar de páginas, esses dados têm um potencial incrível para o bem. Ele impulsiona os avanços científicos em medicina, ciências sociais e IA e promete revolucionar a forma como as empresas e os governos funcionam.

    No entanto, a recolha e utilização em larga escala de dados detalhados a nível individual suscitam preocupações legítimas em matéria de privacidade. As recentes retrospectivas contra o compartilhamento de dados médicos do NHS [UK National Health Service] com a DeepMind e a coleta e posterior venda de dados do Facebook para Cambridge Analytica são as últimas evidências de que as pessoas estão preocupadas com a confidencialidade, privacidade e uso ético de seus dados. Em uma pesquisa recente, 72% dos cidadãos americanos relataram estar preocupados com o compartilhamento de informações pessoais on-line. Nas mãos erradas, dados sensíveis podem ser explorados para chantagem, vigilância em massa, engenharia social ou roubo de identidade.

    A desidentificação, o processo de anonimizar conjuntos de dados antes de compartilhá-los, tem sido o principal paradigma usado na pesquisa e em outros lugares para compartilhar dados, preservando a privacidade das pessoas. As leis de proteção de dados em todo o mundo consideram dados anônimos como não dados pessoais, permitindo que eles sejam usados, compartilhados e vendidos livremente. Os periódicos acadêmicos estão, por exemplo, cada vez mais exigindo que os autores disponibilizem dados anônimos à comunidade de pesquisa. Embora os padrões para dados anônimos variem, as leis modernas de proteção de dados, como o Regulamento Geral Europeu de Proteção de Dados (GDPR) e a Lei de Privacidade do Consumidor da Califórnia (CCPA), consideram que cada pessoa em um conjunto de dados deve ser protegida para que o conjunto de dados seja considerado anônimo. Este novo padrão mais elevado de anonimato é ainda esclarecido pela introdução no RGPD de dados pseudônimos: dados que não contêm identificadores óbvios, mas que podem ser reidentificáveis e, portanto, estão dentro do âmbito da lei.

    No entanto, vários conjuntos de dados supostamente anônimos foram recentemente liberados e re-identificados. Em 2016, jornalistas reidentificaram políticos em um conjunto de dados de histórico de navegação anonimizado de 3 milhões de cidadãos alemães, descobrindo suas informações médicas e suas preferências sexuais. Poucos meses antes, o Departamento de Saúde Australiano divulgou publicamente registros médicos desidentificados para 10% da população apenas para pesquisadores reidentificá-los 6 semanas depois. Antes disso, estudos mostraram que os dados de alta hospitalar não identificados poderiam ser reidentificados usando atributos demográficos básicos e que códigos diagnósticos, ano de nascimento, sexo e etnia poderiam identificar de forma única pacientes em dados de estudos genômicos. Finalmente, os pesquisadores foram capazes de identificar exclusivamente indivíduos em trajetórias de táxi anônimas em Nova York, viagens de compartilhamento de bicicletas em Londres, dados de metrô em Riga e conjuntos de dados de telefone celular e cartão de crédito.

    Pesquisadores de controle de divulgação estatística e algumas empresas estão discutindo a validade dessas reidentificações: como os conjuntos de dados estão sempre incompletos, jornalistas e pesquisadores nunca podem ter certeza de que reidentificaram a pessoa certa mesmo que encontraram uma correspondência. Eles argumentam que isso proporciona forte negação plausível aos participantes e reduz os riscos, tornando esses conjuntos de dados desidentificados anônimos, inclusive de acordo com o RGPD. Os conjuntos de dados desidentificados podem ser intrinsecamente incompletos, por exemplo, porque o conjunto de dados abrange apenas pacientes de uma das redes hospitalares de um país ou porque foram subamostrados como parte do processo de desidentificação. Por exemplo, o U.S. Census Bureau libera apenas 1% de seu censo decenal e frações de amostragem para censo internacional variam de 0,07% na Índia a 10% em países sul-americanos. As empresas estão adotando abordagens semelhantes com, por exemplo, o conjunto de dados do Prêmio Netflix, incluindo 10% de seus usuários.

    Imagine uma companhia de seguros de saúde que decide fazer um concurso para prever o câncer de mama e publica um conjunto de dados desidentificado de 1000 pessoas, 1% de suas 100.000 seguradas na Califórnia, incluindo data de nascimento, sexo, CEP e diagnóstico de câncer de mama das pessoas. O empregador de John Doe baixa o conjunto de dados e encontra um (e apenas um) registro correspondente às informações de Doe: homem vivendo em Berkeley, CA (94720), nascido em 2 de janeiro de 1968, e diagnosticado com câncer de mama (auto-revelado por John Doe). Este registro também contém os detalhes de seus tratamentos recentes (fracassados) estágio IV. Quando contatada, a companhia de seguros argumenta que a correspondência não é igual a re-identificação: o registro pode pertencer a 1 das 99 mil outras pessoas que seguram ou, se o empregador não sabe se Doe está segurado por esta empresa ou não, a qualquer outra pessoa dos 39,5 milhões de pessoas que vivem na Califórnia.

    Nosso artigo mostra como a probabilidade de um indivíduo específico ter sido reidentificado corretamente pode ser estimada com alta precisão mesmo quando o conjunto de dados anonimizado está fortemente incompleto. Propomos um modelo gráfico generativo que pode ser treinado com precisão e eficiência em dados incompletos. Usando conjuntos de dados sociodemográficos, de pesquisa e de saúde, mostramos que nosso modelo apresenta um erro absoluto médio (MAE) de 0,018 em média na estimativa da singularidade populacional e um MAE de 0,041 na estimativa da singularidade populacional quando o modelo é treinado em apenas uma amostra populacional de 1%. Uma vez treinado, nosso modelo nos permite prever se a re-identificação de um indivíduo está correta com uma taxa média de descoberta falsa de 6,7% para um limiar de 95% (^ x^ 0,95) e uma taxa de erro 39% menor do que o melhor estimador de nível populacional possível. Com a singularidade da população aumentando rapidamente com o número de atributos disponíveis, nossos resultados mostram que a probabilidade de uma re-identificação ser correta, mesmo em um conjunto de dados com amostragem pesada, pode ser estimada com precisão e muitas vezes é alta. Nossos resultados rejeitam as alegações de que, em primeiro lugar, a re-identificação não é um risco prático e, em segundo lugar, a amostragem ou liberação de conjuntos de dados parciais fornecem negação plausível. Avançando, questionam se as práticas atuais de desidentificação satisfazem os padrões de anonimato das leis modernas de proteção de dados, como o GDPR e o CCPA, e enfatizam a necessidade de ir, de uma perspectiva legal e regulatória, além do modelo de liberação e esquecimento de desidentificação.

    Leia o artigo completo em Estimando o Sucesso de Reidentificações em Conjuntos de Dados Incompletos Usando Modelos Generativos

    Documento completo

    Estimando o Sucesso de Reidentificações em Conjuntos de Dados Incompletos Usando Modelos Generativos

    Acesso direto ao documento completo (PDF)

    Leitura adicional

    A Lei de Privacidade do Consumidor da Califórnia de 2018: Quatro Extratos Educacionais

    A SHIELD está agora em cima: nova legislação para proteger os nova-iorquinos contra violações de segurança de dados

    Fonte: ComplexDiscovery