Conjuntos de datos sintéticas podrían ayudar a proteger la privacidad

- Feb 20, 2019-

Redes sintéticas pueden aumentar la disponibilidad de algunos datos mientras todavía proteger la privacidad individual o institucional, según una estadística del estado de Penn.


"Mi interés en el desarrollo de metodología que permita el más amplio intercambio de datos confidenciales de una forma que puede ayudar en el descubrimiento científico," dijo Aleksandra Slavkovic, profesor de Estadística y asociado Decano de postgrado en educación, Universidad de Eberly de la Ciencia, estado de Penn. "Ser capaz de compartir datos confidenciales con el mínimo riesgo cuantificable para el descubrimiento de información sensible y todavía asegurar la integridad y exactitud estadística, es la meta".


Slavkovic ha encontrado soluciones a este problema de privacidad de datos a través de colaboraciones interdisciplinarias, especialmente con las computadoras y los científicos sociales. Su investigación se centra en varios datos, incluyendo datos de red que capturan información de relación entre entidades como personas o instituciones. Ella divulgó sus enfoques a proporcionar redes sintéticas que satisfacen una noción de privacidad diferencial hoy (16 de Feb) durante la reunión anual de 2019 de la Asociación Americana para el avance de la ciencia en Washington, D.C.


Privacidad diferencial garantiza matemáticamente demostrable del nivel de pérdida de privacidad a las personas.


Los científicos desean acceder a los datos recogidos por otras personas para su investigación, pero dicho acceso también podría comprometer la privacidad personal, incluso después del retiro del supuesto datos personalmente identificables.


"Una abundancia de datos auxiliares es el culpable principal," dijo Slavkovic. "Con los avances metodológicos y tecnológicos en la recopilación de datos y vinculación registro, facilitar el acceso a variedad de fuentes de datos que podrían estar relacionados con un conjunto de datos en la mano, y necesidades de agencias para compartir datos de financiación, están aumentando los riesgos para la privacidad de los datos. Pero, encontrar buenas soluciones para la gestión de pérdida de privacidad son esenciales para permitir la sonoro descubrimiento científico".


Información disponible al público desde una prueba de drogas en un fármaco para el VIH, por ejemplo, indicaría que estaba en el grupo de tratamiento y que se encontraba en el grupo de control. El grupo de tratamiento contendría sólo personas diagnosticadas con el VIH y a pesar de que los propietarios de los datos retención datos personales de ese conjunto de datos, seguirá siendo cierta información de identificación. Porque tanta información hoy en día está disponible en línea en redes sociales y en otras bases de datos, es posible conectar los puntos e identificar a las personas, potencialmente revelar su estado serológico.


"Técnicas para enlazar dos conjuntos de datos, registros de votantes y los datos de seguro de salud, han mejorado," dijo Slavkovic. "En uno de los hallazgos iniciales, Latanya Sweeny (en Harvard) demostró que al relacionar este tipo de datos, puede identificar el 87 por ciento de la población en el censo de 1990 basado en su fecha de nacimiento, sexo y código postal de 5 dígitos. Más recientemente, los investigadores utilizan tweets y asociados metadatos de Twitter para mostrar que pueden identificar a los usuarios con 96.7% de precisión."


Slavkovic señala que no es sólo las personas o instituciones cuyos datos figuran en las bases de datos, sino que personas fuera de la base de datos también pueden sufrir de invasión de la privacidad, directamente o por asociación. Los vínculos entre la información en un conjunto de datos e información en los medios sociales podrían conducir a una recámara de privacidad grave, algo así como el VIH o la orientación sexual podría tener graves repercusiones si reveló.


Mientras que la privacidad es importante, conjuntos de datos recopilados constituyen una fuente esencial de información para los investigadores. Actualmente, en algunos casos cuando los datos son excepcionalmente sensibles, los investigadores deben físicamente ir a los repositorios de datos para realizar su investigación, hacer investigación más difícil y costoso.


Slavkovic está interesado en datos de la red. Información que muestra la interrelación de personas o instituciones, los nodos y las conexiones entre nodos. Su enfoque consiste en crear conjuntos de datos ligeramente alterada, espejo de la red con algunos de los nodos se movió, conexiones cambiadas de puesto o bordes alterados.


"El objetivo es crear nuevas redes que satisfacen los requisitos de privacidad diferencial riguroso y al mismo tiempo capturan a la mayoría de las características estadísticas de la red original," dijo Slavkovic.


Estos conjuntos de datos sintéticos pueden ser suficientes para algunos investigadores satisfacer sus necesidades de investigación. Para otros, sería suficiente para poner a prueba sus enfoques y la hipótesis antes de tener que ir al sitio de almacenamiento de datos. Investigadores podrían probar código, hacer investigación y análisis quizás básico mientras espera permiso utilizar los datos originales en su sitio del repositorio.


"No podemos satisfacer las demandas de todos los análisis estadísticos con el mismo tipo de datos alterados," dijo Slavkovic. "Algunas personas necesitarán los datos originales, pero otros pueden ir una manera larga con datos sintéticos tales como redes sintéticas".

Artículo anterior:8 tipos de conectores LC de fibra óptica más comunes en InterConnections Siguiente artículo:¿Qué es FTTH?