logo móvil
Contáctanos

Un método de construcción de corpus comparable multilingüe que preserva la privacidad en Internet de las Cosas

Autores: Weng, Yu; Dong, Shumin; , Chaomurilige

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un método de construcción de corpus comparable multilingüe que preserva la privacidad en Internet de las Cosas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Internet de las cosas
Inteligencia artificial
Escenarios multilingües
Protección de la privacidad
Corpus comparables
Privacidad de los datos.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Con la expansión de Internet de las Cosas (IoT) y las tecnologías de inteligencia artificial (IA), los escenarios multilingües están aumentando gradualmente, y las aplicaciones basadas en recursos multilingües también están en aumento. En este proceso, además de la necesidad de la construcción de recursos multilingües, los problemas de protección de la privacidad como la fuga de datos privados son cada vez más destacados. El corpus comparable es importante en el procesamiento de información de lenguaje multilingüe en IoT. Sin embargo, el corpus comparable multilingüe relacionado con la preservación de la privacidad es raro, por lo que hay una necesidad urgente de construir un recurso de corpus multilingüe. Este documento propone un método para construir un corpus comparable multilingüe que preserve la privacidad, tomando como ejemplo noticias basadas en IoT en chino-uyghur-tibetano, y mapeando los textos en diferentes idiomas a un espacio vectorial de lenguaje unificado para evitar información sensible, luego calcula la similitud entre los textos en diferentes idiomas y sirve como un índice de comparabilidad para construir relaciones comparables. A través del mecanismo de toma de decisiones de minimización de la imposibilidad, puede identificar un par de corpus comparables de textos multilingües basados en el tamaño del capítulo para realizar la construcción de un corpus comparable chino-uyghur-tibetano que preserve la privacidad. Los experimentos de evaluación demuestran la efectividad de nuestro método demostrable propuesto, que supera en tasa de precisión en un 77%, tasa de recuperación en un 34% y valor en un 47,17%. Proporciona un valioso soporte de recursos de datos que preservan la privacidad y servicios de idiomas para situaciones multilingües en IoT.

Otros recursos que podrían interesarte

Temas Virtualpro