Investigando la detección de lenguaje ofensivo en un entorno de recursos limitados con una perspectiva de robustez
Autores: Abdellaoui, Israe; Ibrahimi, Anass; El Bouni, Mohamed Amine; Mourhir, Asmaa; Driouech, Saad; Aghzal, Mohamed
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Investigando la detección de lenguaje ofensivo en un entorno de recursos limitados con una perspectiva de robustez
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Dialecto
Lenguaje ofensivo
Conjunto de datos
Modelos de lenguaje
Precisión
Robustez
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
El dariya marroquí, un dialecto del árabe, presenta desafíos únicos para el procesamiento del lenguaje natural debido a la falta de ortografías estandarizadas, el cambio de códigos frecuente y su condición de idioma de recursos limitados. En este trabajo, nos enfocamos en detectar lenguaje ofensivo en dariya, abordando estas complejidades. Presentamos tres contribuciones clave que avanzan en el campo. Primero, introducimos un conjunto de datos etiquetados por humanos de texto en dariya recopilado de plataformas de redes sociales. Segundo, exploramos y ajustamos varios modelos de lenguaje en el conjunto de datos creado. Esta investigación identifica un modelo basado en RoBERTa para dariya como el enfoque más efectivo, con una precisión del 90% y una puntuación F1 del 85%. Tercero, evaluamos el mejor modelo más allá de la precisión al evaluar propiedades como la corrección, la robustez y la equidad utilizando pruebas metamórficas y ataques adversarios. Los resultados destacan posibles vulnerabilidades en la robustez del modelo, siendo susceptible a ataques como la inserción de puntos (tasa de éxito del 29.4%), la inserción de espacios (24.5%) y la modificación de caracteres en palabras (18.3%). Las evaluaciones de equidad muestran que si bien el modelo es generalmente justo, aún exhibe sesgos en casos específicos, con una tasa de éxito del 7% para ataques dirigidos a entidades típicamente sujetas a discriminación. El hallazgo clave es que depender únicamente de métricas offline como la puntuación F1 y la precisión para evaluar sistemas de aprendizaje automático es insuficiente. Para idiomas de recursos limitados, la recomendación es centrarse en identificar y abordar sesgos específicos del dominio y mejorar los modelos de lenguaje monolingües preentrenados con datos diversos y más ruidosos para mejorar su robustez y capacidades de generalización en escenarios lingüísticos diversos.
Descripción
El dariya marroquí, un dialecto del árabe, presenta desafíos únicos para el procesamiento del lenguaje natural debido a la falta de ortografías estandarizadas, el cambio de códigos frecuente y su condición de idioma de recursos limitados. En este trabajo, nos enfocamos en detectar lenguaje ofensivo en dariya, abordando estas complejidades. Presentamos tres contribuciones clave que avanzan en el campo. Primero, introducimos un conjunto de datos etiquetados por humanos de texto en dariya recopilado de plataformas de redes sociales. Segundo, exploramos y ajustamos varios modelos de lenguaje en el conjunto de datos creado. Esta investigación identifica un modelo basado en RoBERTa para dariya como el enfoque más efectivo, con una precisión del 90% y una puntuación F1 del 85%. Tercero, evaluamos el mejor modelo más allá de la precisión al evaluar propiedades como la corrección, la robustez y la equidad utilizando pruebas metamórficas y ataques adversarios. Los resultados destacan posibles vulnerabilidades en la robustez del modelo, siendo susceptible a ataques como la inserción de puntos (tasa de éxito del 29.4%), la inserción de espacios (24.5%) y la modificación de caracteres en palabras (18.3%). Las evaluaciones de equidad muestran que si bien el modelo es generalmente justo, aún exhibe sesgos en casos específicos, con una tasa de éxito del 7% para ataques dirigidos a entidades típicamente sujetas a discriminación. El hallazgo clave es que depender únicamente de métricas offline como la puntuación F1 y la precisión para evaluar sistemas de aprendizaje automático es insuficiente. Para idiomas de recursos limitados, la recomendación es centrarse en identificar y abordar sesgos específicos del dominio y mejorar los modelos de lenguaje monolingües preentrenados con datos diversos y más ruidosos para mejorar su robustez y capacidades de generalización en escenarios lingüísticos diversos.