Mejorando la privacidad mientras se preserva el contexto en las transformaciones de texto por modelos de lenguaje grandes
Autores: arski, Tymon Lesaw; Janicki, Artur
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mejorando la privacidad mientras se preserva el contexto en las transformaciones de texto por modelos de lenguaje grandes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Seguridad de datos
Usuarios de internet
Datos personales
Herramientas en línea
Privacidad
Procesamiento de lenguaje natural
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La seguridad de los datos es una preocupación crítica para los usuarios de Internet, principalmente a medida que más personas dependen de las redes sociales y herramientas en línea a diario. A pesar de la conveniencia, muchos usuarios no son conscientes de los riesgos que enfrentan sus datos sensibles y personales. Este estudio aborda este problema presentando una solución integral para prevenir la filtración de datos personales utilizando herramientas en línea. Desarrollamos una solución conceptual que mejora la privacidad del usuario al identificar y anonimizar clases de entidades nombradas que representan datos sensibles, manteniendo el contexto original al intercambiar entidades de origen por datos funcionales. Nuestro enfoque utiliza métodos de procesamiento de lenguaje natural, combinando herramientas de aprendizaje automático como MITIE y spaCy con análisis de texto basado en reglas. Empleamos expresiones regulares y modelos de lenguaje grandes para anonimizar texto, preservando su contexto para un procesamiento posterior o permitiendo la restauración a la forma original después de las transformaciones. Los resultados demuestran la efectividad de nuestros modelos entrenados a medida, logrando una puntuación F1 de 0.8292. Además, los algoritmos propuestos preservaron con éxito el contexto en aproximadamente el 93.23% de los casos de prueba, lo que indica una solución prometedora para el manejo seguro de datos en entornos en línea.
Descripción
La seguridad de los datos es una preocupación crítica para los usuarios de Internet, principalmente a medida que más personas dependen de las redes sociales y herramientas en línea a diario. A pesar de la conveniencia, muchos usuarios no son conscientes de los riesgos que enfrentan sus datos sensibles y personales. Este estudio aborda este problema presentando una solución integral para prevenir la filtración de datos personales utilizando herramientas en línea. Desarrollamos una solución conceptual que mejora la privacidad del usuario al identificar y anonimizar clases de entidades nombradas que representan datos sensibles, manteniendo el contexto original al intercambiar entidades de origen por datos funcionales. Nuestro enfoque utiliza métodos de procesamiento de lenguaje natural, combinando herramientas de aprendizaje automático como MITIE y spaCy con análisis de texto basado en reglas. Empleamos expresiones regulares y modelos de lenguaje grandes para anonimizar texto, preservando su contexto para un procesamiento posterior o permitiendo la restauración a la forma original después de las transformaciones. Los resultados demuestran la efectividad de nuestros modelos entrenados a medida, logrando una puntuación F1 de 0.8292. Además, los algoritmos propuestos preservaron con éxito el contexto en aproximadamente el 93.23% de los casos de prueba, lo que indica una solución prometedora para el manejo seguro de datos en entornos en línea.