Una Evaluación de Métodos de Identificación de Lenguaje Ofensivo Multilingüe para los Idiomas de India
Autores: Ranasinghe, Tharindu; Zampieri, Marcos
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Una Evaluación de Métodos de Identificación de Lenguaje Ofensivo Multilingüe para los Idiomas de India
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Contenido ofensivo
Redes sociales
Modelos computacionales
Seguridad en línea
Lenguas de bajos recursos
Transformadores multilingües
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La prevalencia de contenido ofensivo en las redes sociales se ha convertido en una razón importante de preocupación para las plataformas en línea. Con el objetivo de mejorar la seguridad en línea, se han publicado en los últimos años un gran número de estudios que aplican modelos computacionales para identificar dicho contenido, con resultados prometedores. Sin embargo, la mayoría de estos estudios se ocupan de lenguas de alto recurso como el inglés debido a la disponibilidad de conjuntos de datos en estos idiomas. Trabajos recientes han abordado la identificación de lenguaje ofensivo desde una perspectiva de bajo recurso, explorando estrategias de aumento de datos y tratando de aprovechar los modelos multilingües preentrenados existentes para hacer frente a la escasez de datos en escenarios de bajo recurso. En este trabajo, revisamos el problema de la identificación de lenguaje ofensivo de bajo recurso evaluando el rendimiento de transformadores multilingües en la identificación de lenguaje ofensivo para lenguas habladas en India. Investigamos lenguas de diferentes familias como la indoeuropea (por ejemplo, bengalí, hindi y urdu) y dravídica (por ejemplo, tamil, malayalam y kannada), creando una nueva tecnología importante para estos idiomas. Los resultados muestran que los modelos de identificación de lenguaje ofensivo multilingües tienen un mejor rendimiento que los modelos monolingües y que los transformadores cruzados muestran un fuerte rendimiento en cero disparos y pocos disparos en diferentes idiomas.
Descripción
La prevalencia de contenido ofensivo en las redes sociales se ha convertido en una razón importante de preocupación para las plataformas en línea. Con el objetivo de mejorar la seguridad en línea, se han publicado en los últimos años un gran número de estudios que aplican modelos computacionales para identificar dicho contenido, con resultados prometedores. Sin embargo, la mayoría de estos estudios se ocupan de lenguas de alto recurso como el inglés debido a la disponibilidad de conjuntos de datos en estos idiomas. Trabajos recientes han abordado la identificación de lenguaje ofensivo desde una perspectiva de bajo recurso, explorando estrategias de aumento de datos y tratando de aprovechar los modelos multilingües preentrenados existentes para hacer frente a la escasez de datos en escenarios de bajo recurso. En este trabajo, revisamos el problema de la identificación de lenguaje ofensivo de bajo recurso evaluando el rendimiento de transformadores multilingües en la identificación de lenguaje ofensivo para lenguas habladas en India. Investigamos lenguas de diferentes familias como la indoeuropea (por ejemplo, bengalí, hindi y urdu) y dravídica (por ejemplo, tamil, malayalam y kannada), creando una nueva tecnología importante para estos idiomas. Los resultados muestran que los modelos de identificación de lenguaje ofensivo multilingües tienen un mejor rendimiento que los modelos monolingües y que los transformadores cruzados muestran un fuerte rendimiento en cero disparos y pocos disparos en diferentes idiomas.