logo móvil
Contáctanos
Portada

Imagen. / Wikimedia

2025-04-15

Un nuevo método protege eficazmente los datos confidenciales de entrenamiento de IA


La privacidad de los datos tiene un precio. Existen técnicas de seguridad que protegen los datos confidenciales de los usuarios, como las direcciones de los clientes, de atacantes que podrían intentar extraerlos de los modelos de IA, pero a menudo reducen la precisión de dichos modelos.

Investigadores del MIT desarrollaron recientemente un marco de trabajo basado en una nueva métrica de privacidad llamada PAC Privacy, que podría mantener el rendimiento de un modelo de IA a la vez que garantiza la seguridad de datos sensibles, como imágenes médicas o registros financieros, frente a atacantes. Ahora, han llevado este trabajo un paso más allá, mejorando la eficiencia computacional de su técnica, mejorando el equilibrio entre precisión y privacidad, y creando una plantilla formal que permite privatizar prácticamente cualquier algoritmo sin necesidad de acceder a su funcionamiento interno.

El equipo utilizó su nueva versión de PAC Privacy para privatizar varios algoritmos clásicos para tareas de análisis de datos y aprendizaje automático.

También demostraron que los algoritmos más estables son más fáciles de privatizar con su método. Las predicciones de un algoritmo estable se mantienen consistentes incluso con ligeras modificaciones en sus datos de entrenamiento. Una mayor estabilidad permite a un algoritmo realizar predicciones más precisas con datos nunca antes vistos.

Los investigadores dicen que la mayor eficiencia del nuevo marco de privacidad del PAC y la plantilla de cuatro pasos que se puede seguir para implementarlo harían que la técnica fuera más fácil de implementar en situaciones del mundo real.

Tendemos a considerar que la robustez y la privacidad no están relacionadas, o incluso entran en conflicto, con la construcción de un algoritmo de alto rendimiento. Primero, creamos un algoritmo funcional, luego lo hacemos robusto y finalmente, privado. Hemos demostrado que este no siempre es el enfoque adecuado. Si logramos que nuestro algoritmo funcione mejor en diversos entornos, prácticamente podemos obtener privacidad gratuitamente», afirma Mayuri Sridhar, estudiante de posgrado del MIT y autor principal de un artículo sobre este marco de privacidad.

En el artículo, la acompañan Hanshen Xiao, doctorado (promoción 24), quien se incorporará como profesor asistente en la Universidad de Purdue en otoño; y la autora principal, Srini Devadas, profesora Edwin Sibley Webster de Ingeniería Eléctrica en el MIT. La investigación se presentará en el Simposio del IEEE sobre Seguridad y Privacidad.

Estimación del ruido

Para proteger los datos confidenciales utilizados para entrenar un modelo de IA, los ingenieros suelen añadir ruido, o aleatoriedad genérica, al modelo para dificultar que un adversario adivine los datos de entrenamiento originales. Este ruido reduce la precisión del modelo, por lo que cuanto menos ruido se añada, mejor.

PAC Privacy estima automáticamente la cantidad mínima de ruido que se necesita agregar a un algoritmo para lograr el nivel de privacidad deseado.

El algoritmo original de privacidad de PAC ejecuta el modelo de IA de un usuario varias veces en diferentes muestras de un conjunto de datos. Mide la varianza y las correlaciones entre estos resultados y utiliza esta información para estimar cuánto ruido debe añadirse para proteger los datos.

Esta nueva variante de PAC Privacy funciona de la misma manera, pero no necesita representar la matriz completa de correlaciones de datos en las salidas; solo necesita las variaciones de salida.

“Como lo que se estima es mucho menor que la matriz de covarianza completa, se puede hacer mucho más rápido”, explica Sridhar. Esto significa que se puede escalar a conjuntos de datos mucho más grandes.

Añadir ruido puede reducir la utilidad de los resultados, por lo que es importante minimizar la pérdida de utilidad. Debido al coste computacional, el algoritmo PAC Privacy original se limitaba a añadir ruido isotrópico, que se añade uniformemente en todas las direcciones. Dado que la nueva variante estima el ruido anisotrópico, adaptado a las características específicas de los datos de entrenamiento, el usuario podría añadir menos ruido general para lograr el mismo nivel de privacidad, lo que aumenta la precisión del algoritmo privatizado.

Privacidad y estabilidad

Al estudiar la privacidad de PAC, Sridhar planteó la hipótesis de que los algoritmos más estables serían más fáciles de privatizar con esta técnica. Utilizó la variante más eficiente de la privacidad de PAC para probar esta teoría en varios algoritmos clásicos.

Los algoritmos más estables presentan menor varianza en sus resultados cuando sus datos de entrenamiento varían ligeramente. PAC Privacy divide un conjunto de datos en fragmentos, ejecuta el algoritmo en cada fragmento y mide la varianza entre los resultados. Cuanto mayor sea la varianza, más ruido se debe añadir para privatizar el algoritmo.

El uso de técnicas de estabilidad para disminuir la varianza en los resultados de un algoritmo también reduciría la cantidad de ruido que debe agregarse para privatizarlo, explica.

“En el mejor de los casos, podemos conseguir escenarios en los que todos ganan”, afirma.

El equipo demostró que estas garantías de privacidad se mantuvieron sólidas a pesar del algoritmo probado, y que la nueva variante de PAC Privacy requirió un orden de magnitud menor de ensayos para estimar el ruido. También probaron el método en simulaciones de ataques, demostrando que sus garantías de privacidad podían resistir ataques de última generación.

“Queremos explorar cómo se podrían diseñar algoritmos en conjunto con PAC Privacy, para que el algoritmo sea más estable, seguro y robusto desde el principio”, afirma Devadas. Los investigadores también quieren probar su método con algoritmos más complejos y explorar más a fondo el equilibrio entre privacidad y utilidad.

“La pregunta ahora es: ¿cuándo ocurren estas situaciones beneficiosas para todos y cómo podemos lograr que se repitan?”, pregunta Sridhar.

“Creo que la principal ventaja de PAC Privacy en este contexto sobre otras definiciones de privacidad es que funciona como una caja negra: no es necesario analizar manualmente cada consulta individual para privatizar los resultados. Se puede hacer de forma completamente automática. Estamos desarrollando activamente una base de datos compatible con PAC, ampliando los motores SQL existentes para facilitar el análisis de datos privados práctico, automatizado y eficiente”, afirma Xiangyao Yu, profesor adjunto del departamento de informática de la Universidad de Wisconsin en Madison, quien no participó en este estudio.

Esta investigación cuenta con el apoyo, en parte, de Cisco Systems, Capital One, el Departamento de Defensa de EE. UU. y una beca MathWorks.

Autor

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro