Aprendizaje Continuo para la Detección de Lenguaje Ofensivo en Dialecto Saudí Bajo Deriva Lingüística Temporal
Autores: Asiri, Afefa; Saleh, Mostafa
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Aprendizaje Continuo para la Detección de Lenguaje Ofensivo en Dialecto Saudí Bajo Deriva Lingüística Temporal
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistemas de detección de lenguaje ofensivo
Deriva lingüística
Dialecto saudí
Enfoques de aprendizaje continuo
Repetición de Experiencia
Consolidación de Peso Elástico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los sistemas de detección de lenguaje ofensivo que funcionan bien en un momento dado a menudo se degradan a medida que los patrones lingüísticos evolucionan, particularmente en las redes sociales en árabe dialectal, donde surgen nuevos términos y las expresiones familiares cambian de significado. Este estudio investiga el cambio lingüístico temporal en la detección de lenguaje ofensivo en dialecto saudí a través de una evaluación sistemática de enfoques de aprendizaje continuo. Basándonos en el conjunto de datos de Dialecto Ofensivo Saudí (SOD), diseñamos escenarios de prueba que incorporan términos ofensivos recién introducidos, expresiones que cambian de contexto y diferentes proporciones de datos históricos para evaluar tanto la adaptación como la retención del conocimiento. Ocho configuraciones de aprendizaje continuo -Experiencia de Repetición (ER), Consolidación de Peso Elástico (EWC), Adaptación de Bajo Rango (LoRA) y sus combinaciones- fueron evaluadas en cinco escenarios de prueba. Los resultados muestran que los modelos sin aprendizaje continuo experimentan una disminución de 13.4 puntos porcentuales en F1-macro en patrones evolucionados. En nuestros experimentos, la Experiencia de Repetición logró un equilibrio relativamente favorable, manteniendo 0.812 F1-macro en datos históricos y 0.976 en patrones contemporáneos (KR = -0.035; AG = +0.264), aunque con un aumento en la memoria y el tiempo de entrenamiento. EWC mostró una retención moderada (KR = -0.052) con una adaptación comparable (AG = +0.255). En el conjunto de pruebas SimuReal -diseñado con un desequilibrio de clases realista y solo un 5% de términos de deriva- ER logró 0.842 y EWC logró 0.833, en comparación con el 0.817 del modelo original, representando mejoras modestas en condiciones realistas. Los métodos basados en LoRA mostraron una menor adaptación en nuestros experimentos, lo que probablemente refleja la configuración específica de LoRA utilizada en este estudio. Se justifica una investigación adicional con configuraciones alternativas.
Descripción
Los sistemas de detección de lenguaje ofensivo que funcionan bien en un momento dado a menudo se degradan a medida que los patrones lingüísticos evolucionan, particularmente en las redes sociales en árabe dialectal, donde surgen nuevos términos y las expresiones familiares cambian de significado. Este estudio investiga el cambio lingüístico temporal en la detección de lenguaje ofensivo en dialecto saudí a través de una evaluación sistemática de enfoques de aprendizaje continuo. Basándonos en el conjunto de datos de Dialecto Ofensivo Saudí (SOD), diseñamos escenarios de prueba que incorporan términos ofensivos recién introducidos, expresiones que cambian de contexto y diferentes proporciones de datos históricos para evaluar tanto la adaptación como la retención del conocimiento. Ocho configuraciones de aprendizaje continuo -Experiencia de Repetición (ER), Consolidación de Peso Elástico (EWC), Adaptación de Bajo Rango (LoRA) y sus combinaciones- fueron evaluadas en cinco escenarios de prueba. Los resultados muestran que los modelos sin aprendizaje continuo experimentan una disminución de 13.4 puntos porcentuales en F1-macro en patrones evolucionados. En nuestros experimentos, la Experiencia de Repetición logró un equilibrio relativamente favorable, manteniendo 0.812 F1-macro en datos históricos y 0.976 en patrones contemporáneos (KR = -0.035; AG = +0.264), aunque con un aumento en la memoria y el tiempo de entrenamiento. EWC mostró una retención moderada (KR = -0.052) con una adaptación comparable (AG = +0.255). En el conjunto de pruebas SimuReal -diseñado con un desequilibrio de clases realista y solo un 5% de términos de deriva- ER logró 0.842 y EWC logró 0.833, en comparación con el 0.817 del modelo original, representando mejoras modestas en condiciones realistas. Los métodos basados en LoRA mostraron una menor adaptación en nuestros experimentos, lo que probablemente refleja la configuración específica de LoRA utilizada en este estudio. Se justifica una investigación adicional con configuraciones alternativas.