Sun. Feb 5th, 2023
    en flag
    nl flag
    fr flag
    de flag
    pt flag
    es flag

    Nota del editor: Dados los crecientes requisitos legales y reglamentarios en las áreas de privacidad y protección de datos personales, el siguiente artículo publicado bajo la licencia Creative Commons Attribution 4.0 proporciona información y conocimientos que destacan cómo los conjuntos de datos anónimos, incluso cuando están muy incompletos, pueden siguen planteando desafíos de privacidad basados en modelos generativos que tienen un alto grado de éxito en la reidentificación de datos anónimos.

    Estimación del éxito de reidentificaciones en datasets incompletos mediante modelos generativos

    Artículo de Luc Rocher, Julien M. Hendrickx e Yves-Alexandre de Montjoye publicado en Nature Communications.

    Abstracto

    Si bien los ricos datos médicos, de comportamiento y sociodemográficos son clave para la investigación moderna basada en datos, su recopilación y uso plantean preocupaciones legítimas de privacidad. La anonimización de los conjuntos de datos mediante la desidentificación y el muestreo antes de compartirlos ha sido la principal herramienta utilizada para abordar esas preocupaciones. Aquí proponemos un método generativo basado en cópulas que puede estimar con precisión la probabilidad de que una persona específica sea reidentificada correctamente, incluso en un conjunto de datos muy incompleto. En 210 poblaciones, nuestro método obtiene puntajes AUC para predecir la unicidad individual que oscila entre 0,84 y 0,97, con baja tasa de falsos descubrimientos. Usando nuestro modelo, encontramos que el 99,98% de los estadounidenses serían reidentificados correctamente en cualquier conjunto de datos usando 15 atributos demográficos. Nuestros resultados sugieren que incluso los conjuntos de datos anónimos muy muestreados son improbables para satisfacer los estándares modernos de anonimización establecidos por el RGPD y desafiar seriamente la adecuación técnica y legal del modelo de liberación y olvido de la identificación.

    Introducción

    En la última década, la capacidad de recopilar y almacenar datos personales ha explotado. Dado que dos tercios de la población mundial tienen acceso a Internet, los registros médicos electrónicos se convierten en la norma y el aumento del Internet de las Cosas, es poco probable que esto se detenga pronto. Recogidos a escala de servicios financieros o médicos, al rellenar encuestas en línea o páginas gustadoras, estos datos tienen un increíble potencial para el bien. Impulsa avances científicos en medicina, ciencias sociales e inteligencia artificial y promete revolucionar la forma en que funcionan las empresas y los gobiernos.

    Sin embargo, la recopilación y el uso a gran escala de datos individuales detallados suscita preocupaciones legítimas en materia de privacidad. Las recientes reacciones contra el intercambio de datos médicos del NHS [Servicio Nacional de Salud del Reino Unido] con DeepMind y la recopilación y posterior venta de datos de Facebook a Cambridge Analytica son las últimas evidencias de que las personas están preocupadas por la confidencialidad, privacidad y uso ético de sus datos. En una encuesta reciente, el 72% de los ciudadanos estadounidenses reportaron estar preocupados por compartir información personal en línea. En las manos equivocadas, los datos confidenciales pueden ser explotados para chantajear, vigilancia masiva, ingeniería social o robo de identidad.

    La desidentificación, el proceso de anonimización de conjuntos de datos antes de compartirlos, ha sido el paradigma principal utilizado en la investigación y en otros lugares para compartir datos, preservando al mismo tiempo la privacidad de las personas. Las leyes de protección de datos de todo el mundo consideran que los datos anónimos ya no son datos personales, lo que les permite ser utilizados, compartidos y vendidos libremente. Por ejemplo, las revistas académicas exigen cada vez más a los autores que pongan datos anónimos a disposición de la comunidad investigadora. Aunque los estándares para datos anónimos varían, las leyes modernas de protección de datos, como el Reglamento General Europeo de Protección de Datos (RGPD) y la Ley de Privacidad del Consumidor de California (CCPA), consideran que todas y cada una de las personas en un conjunto de datos deben estar protegidas para que el conjunto de datos sea considerado anónimo. Este nuevo estándar más elevado para la anonimización queda más claro por la introducción en el RGPD de datos seudónimos: datos que no contienen identificadores obvios pero que pueden ser reidentificables y, por tanto, están dentro del ámbito de aplicación de la ley.

    Sin embargo, recientemente se han publicado y reidentificado numerosos conjuntos de datos supuestamente anónimos. En 2016, los periodistas reidentificaron a los políticos en un conjunto de datos de historial de navegación anonimizado de 3 millones de ciudadanos alemanes, descubriendo su información médica y sus preferencias sexuales. Unos meses antes, el Departamento de Salud de Australia publicó públicamente registros médicos desidentificados para el 10% de la población sólo para que los investigadores los reidentificaran 6 semanas después. Antes de eso, los estudios habían demostrado que los datos de alta hospitalaria no identificados podían volver a identificarse utilizando atributos demográficos básicos y que los códigos diagnósticos, el año de nacimiento, el género y la etnia podían identificar de manera única a los pacientes en los datos de estudios genómicos. Finalmente, los investigadores pudieron identificar de forma única a individuos en trayectorias de taxis anonimizadas en Nueva York, viajes compartidos en bicicleta en Londres, datos del metro en Riga y conjuntos de datos de teléfonos móviles y tarjetas de crédito.

    Investigadores de control de divulgación estadística y algunas empresas están discutiendo la validez de estas reidentificaciones: como los conjuntos de datos siempre están incompletos, los periodistas y los investigadores nunca pueden estar seguros de haber reidentificado a la persona adecuada, incluso si encontraron una coincidencia. Argumentan que esto proporciona una fuerte negación plausible a los participantes y reduce los riesgos, haciendo que dichos conjuntos de datos no identificados sean anónimos, incluso de acuerdo con el RGPD. Los conjuntos de datos no identificados pueden ser intrínsecamente incompletos, por ejemplo, porque el conjunto de datos solo cubre a los pacientes de una de las redes hospitalarias de un país o porque se han submuestreado como parte del proceso de desidentificación. Por ejemplo, la Oficina del Censo de los Estados Unidos publica sólo el 1% de su censo decenal y las fracciones de muestreo para el censo internacional oscilan entre el 0,07% en la India y el 10% en los países sudamericanos. Las empresas están adoptando enfoques similares, por ejemplo, con el conjunto de datos del Premio Netflix, que incluye al 10% de sus usuarios.

    Imagine una compañía de seguros de salud que decida organizar un concurso para predecir el cáncer de mama y publique un conjunto de datos desidentificado de 1000 personas, el 1% de sus 100.000 asegurados en California, incluyendo la fecha de nacimiento de las personas, el sexo, el código postal y el diagnóstico de cáncer de mama. El empleador de John Doe descarga el conjunto de datos y encuentra uno (y solo uno) registro que coincide con la información de Doe: hombre que vive en Berkeley, CA (94720), nacido el 2 de enero de 1968, y diagnosticado con cáncer de mama (autorevelado por John Doe). Este registro también contiene los detalles de sus recientes (fallidos) tratamientos en estadio IV. Cuando se contactó, la compañía de seguros argumenta que el emparejamiento no equivale a una reidentificación: el registro podría pertenecer a 1 de las 99.000 personas que aseguran o, si el empleador no sabe si Doe está asegurado por esta compañía o no, a cualquier otra de las 39.5M personas que viven en California.

    Nuestro artículo muestra cómo la probabilidad de que una persona específica haya sido reidentificada correctamente se puede estimar con alta precisión incluso cuando el conjunto de datos anonimizado está muy incompleto. Proponemos un modelo gráfico generativo que puede ser entrenado de forma precisa y eficiente en datos incompletos. Usando conjuntos de datos sociodemográficos, de encuestas y de salud, mostramos que nuestro modelo presenta un error absoluto medio (MAE) de 0.018 en promedio en la estimación de la unicidad de la población y un MAE de 0.041 en la estimación de la unicidad de la población cuando el modelo es entrenado en solo una muestra de población del 1%. Una vez entrenado, nuestro modelo nos permite predecir si la reidentificación de un individuo es correcta, con una tasa promedio de detección de falsos del 6,7% para un umbral del 95% (IDH 0,95) (HX ^ 0,95) y una tasa de error 39% menor que el mejor estimador de nivel poblacional alcanzable. Dado que la singularidad de la población aumenta rápidamente con el número de atributos disponibles, nuestros resultados muestran que la probabilidad de que una reidentificación sea correcta, incluso en un conjunto de datos muy muestreado, se puede estimar con precisión y, a menudo, es alta. Nuestros resultados rechazan las afirmaciones de que, en primer lugar, la reidentificación no es un riesgo práctico y, en segundo lugar, el muestreo o la liberación de conjuntos de datos parciales proporcionan una negación plausible. En el futuro, cuestionan si las prácticas actuales de desidentificación satisfacen los estándares de anonimización de las leyes modernas de protección de datos, como el RGPD y el CCPA, y enfatizan la necesidad de avanzar, desde una perspectiva legal y reglamentaria, más allá del modelo de liberación y olvido de la identificación.

    Lea el artículo completo en Estimar el éxito de reidentificaciones en conjuntos de datos incompletos utilizando modelos generativos

    Papel completo

    Estimación del éxito de reidentificaciones en datasets incompletos mediante modelos generativos

    Acceso directo al documento completo (PDF)

    Lectura adicional

    La Ley de Privacidad del Consumidor de California de 2018: Cuatro Extractos Educativos

    SHIELD ya está en marcha: nueva legislación para proteger a los neoyorquinos contra violaciones de seguridad de datos

    Fuente: ComplexDiscovery