logo móvil
Contáctanos

Investigando la detección de lenguaje ofensivo en un entorno de recursos limitados con una perspectiva de robustez

Autores: Abdellaoui, Israe; Ibrahimi, Anass; El Bouni, Mohamed Amine; Mourhir, Asmaa; Driouech, Saad; Aghzal, Mohamed

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Investigando la detección de lenguaje ofensivo en un entorno de recursos limitados con una perspectiva de robustez


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Dialecto
Lenguaje ofensivo
Conjunto de datos
Modelos de lenguaje
Precisión
Robustez

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 47

Citaciones: Sin citaciones


Descripción
El dariya marroquí, un dialecto del árabe, presenta desafíos únicos para el procesamiento del lenguaje natural debido a la falta de ortografías estandarizadas, el cambio de códigos frecuente y su condición de idioma de recursos limitados. En este trabajo, nos enfocamos en detectar lenguaje ofensivo en dariya, abordando estas complejidades. Presentamos tres contribuciones clave que avanzan en el campo. Primero, introducimos un conjunto de datos etiquetados por humanos de texto en dariya recopilado de plataformas de redes sociales. Segundo, exploramos y ajustamos varios modelos de lenguaje en el conjunto de datos creado. Esta investigación identifica un modelo basado en RoBERTa para dariya como el enfoque más efectivo, con una precisión del 90% y una puntuación F1 del 85%. Tercero, evaluamos el mejor modelo más allá de la precisión al evaluar propiedades como la corrección, la robustez y la equidad utilizando pruebas metamórficas y ataques adversarios. Los resultados destacan posibles vulnerabilidades en la robustez del modelo, siendo susceptible a ataques como la inserción de puntos (tasa de éxito del 29.4%), la inserción de espacios (24.5%) y la modificación de caracteres en palabras (18.3%). Las evaluaciones de equidad muestran que si bien el modelo es generalmente justo, aún exhibe sesgos en casos específicos, con una tasa de éxito del 7% para ataques dirigidos a entidades típicamente sujetas a discriminación. El hallazgo clave es que depender únicamente de métricas offline como la puntuación F1 y la precisión para evaluar sistemas de aprendizaje automático es insuficiente. Para idiomas de recursos limitados, la recomendación es centrarse en identificar y abordar sesgos específicos del dominio y mejorar los modelos de lenguaje monolingües preentrenados con datos diversos y más ruidosos para mejorar su robustez y capacidades de generalización en escenarios lingüísticos diversos.

Otros recursos que podrían interesarte

Temas Virtualpro