logo móvil
Contáctanos

Una Evaluación de Métodos de Identificación de Lenguaje Ofensivo Multilingüe para los Idiomas de India

Autores: Ranasinghe, Tharindu; Zampieri, Marcos

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Una Evaluación de Métodos de Identificación de Lenguaje Ofensivo Multilingüe para los Idiomas de India


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Contenido ofensivo
Redes sociales
Modelos computacionales
Seguridad en línea
Lenguas de bajos recursos
Transformadores multilingües

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La prevalencia de contenido ofensivo en las redes sociales se ha convertido en una razón importante de preocupación para las plataformas en línea. Con el objetivo de mejorar la seguridad en línea, se han publicado en los últimos años un gran número de estudios que aplican modelos computacionales para identificar dicho contenido, con resultados prometedores. Sin embargo, la mayoría de estos estudios se ocupan de lenguas de alto recurso como el inglés debido a la disponibilidad de conjuntos de datos en estos idiomas. Trabajos recientes han abordado la identificación de lenguaje ofensivo desde una perspectiva de bajo recurso, explorando estrategias de aumento de datos y tratando de aprovechar los modelos multilingües preentrenados existentes para hacer frente a la escasez de datos en escenarios de bajo recurso. En este trabajo, revisamos el problema de la identificación de lenguaje ofensivo de bajo recurso evaluando el rendimiento de transformadores multilingües en la identificación de lenguaje ofensivo para lenguas habladas en India. Investigamos lenguas de diferentes familias como la indoeuropea (por ejemplo, bengalí, hindi y urdu) y dravídica (por ejemplo, tamil, malayalam y kannada), creando una nueva tecnología importante para estos idiomas. Los resultados muestran que los modelos de identificación de lenguaje ofensivo multilingües tienen un mejor rendimiento que los modelos monolingües y que los transformadores cruzados muestran un fuerte rendimiento en cero disparos y pocos disparos en diferentes idiomas.

Otros recursos que podrían interesarte

Temas Virtualpro