Un método de construcción de corpus comparable multilingüe que preserva la privacidad en Internet de las Cosas
Autores: Weng, Yu; Dong, Shumin; , Chaomurilige
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de construcción de corpus comparable multilingüe que preserva la privacidad en Internet de las Cosas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Internet de las cosas
Inteligencia artificial
Escenarios multilingües
Protección de la privacidad
Corpus comparables
Privacidad de los datos.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Con la expansión de Internet de las Cosas (IoT) y las tecnologías de inteligencia artificial (IA), los escenarios multilingües están aumentando gradualmente, y las aplicaciones basadas en recursos multilingües también están en aumento. En este proceso, además de la necesidad de la construcción de recursos multilingües, los problemas de protección de la privacidad como la fuga de datos privados son cada vez más destacados. El corpus comparable es importante en el procesamiento de información de lenguaje multilingüe en IoT. Sin embargo, el corpus comparable multilingüe relacionado con la preservación de la privacidad es raro, por lo que hay una necesidad urgente de construir un recurso de corpus multilingüe. Este documento propone un método para construir un corpus comparable multilingüe que preserve la privacidad, tomando como ejemplo noticias basadas en IoT en chino-uyghur-tibetano, y mapeando los textos en diferentes idiomas a un espacio vectorial de lenguaje unificado para evitar información sensible, luego calcula la similitud entre los textos en diferentes idiomas y sirve como un índice de comparabilidad para construir relaciones comparables. A través del mecanismo de toma de decisiones de minimización de la imposibilidad, puede identificar un par de corpus comparables de textos multilingües basados en el tamaño del capítulo para realizar la construcción de un corpus comparable chino-uyghur-tibetano que preserve la privacidad. Los experimentos de evaluación demuestran la efectividad de nuestro método demostrable propuesto, que supera en tasa de precisión en un 77%, tasa de recuperación en un 34% y valor en un 47,17%. Proporciona un valioso soporte de recursos de datos que preservan la privacidad y servicios de idiomas para situaciones multilingües en IoT.
Descripción
Con la expansión de Internet de las Cosas (IoT) y las tecnologías de inteligencia artificial (IA), los escenarios multilingües están aumentando gradualmente, y las aplicaciones basadas en recursos multilingües también están en aumento. En este proceso, además de la necesidad de la construcción de recursos multilingües, los problemas de protección de la privacidad como la fuga de datos privados son cada vez más destacados. El corpus comparable es importante en el procesamiento de información de lenguaje multilingüe en IoT. Sin embargo, el corpus comparable multilingüe relacionado con la preservación de la privacidad es raro, por lo que hay una necesidad urgente de construir un recurso de corpus multilingüe. Este documento propone un método para construir un corpus comparable multilingüe que preserve la privacidad, tomando como ejemplo noticias basadas en IoT en chino-uyghur-tibetano, y mapeando los textos en diferentes idiomas a un espacio vectorial de lenguaje unificado para evitar información sensible, luego calcula la similitud entre los textos en diferentes idiomas y sirve como un índice de comparabilidad para construir relaciones comparables. A través del mecanismo de toma de decisiones de minimización de la imposibilidad, puede identificar un par de corpus comparables de textos multilingües basados en el tamaño del capítulo para realizar la construcción de un corpus comparable chino-uyghur-tibetano que preserve la privacidad. Los experimentos de evaluación demuestran la efectividad de nuestro método demostrable propuesto, que supera en tasa de precisión en un 77%, tasa de recuperación en un 34% y valor en un 47,17%. Proporciona un valioso soporte de recursos de datos que preservan la privacidad y servicios de idiomas para situaciones multilingües en IoT.