Preguntas y respuestas en árabe generalizado a través de la augmentación de datos adaptativa mezclada por código
Autores: Althobaiti, Maha Jarallah
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Preguntas y respuestas en árabe generalizado a través de la augmentación de datos adaptativa mezclada por código
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Dialectos regionales
Vocabulario
Preguntas mezcladas en código
Variedades árabes
Traducción automática neuronal
Léxico multidialectal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El árabe estándar moderno (MSA) y los muchos dialectos regionales difieren sustancialmente en vocabulario, morfología y uso pragmático. La mayoría de los recursos anotados disponibles están en MSA, y la transferencia cero disparo de MSA a tareas dialectales sufre una gran caída en el rendimiento. Este artículo aborda la respuesta a preguntas árabes generalizadas entre dialectos, donde el contexto y la pregunta están escritos en diferentes variedades árabes. Proponemos un marco de aumento sin entrenamiento que genera preguntas mezcladas en código para cerrar las brechas léxicas entre las variedades árabes. El método produce preguntas mezcladas en código semánticamente fieles y equilibradas a través del siguiente procedimiento en dos etapas: sustitución parcial basada en léxico con similitud semántica y restricciones de tasa de sustitución, seguido de traducción automática neuronal de respaldo con alineación a nivel de palabra cuando sea necesario. También introducimos la construcción automatizada de léxicos multidialectales utilizando traducción automática, alineación basada en incrustaciones y verificaciones semánticas. Llevamos a cabo nuestra evaluación en un entorno de cero disparo, donde el modelo se ajusta finamente solo en MSA y luego se prueba con entradas dialectales utilizando ArDQA, cubriendo cinco variedades árabes y tres dominios (SQuAD, Vlogs y Narrativas). Los experimentos muestran mejoras consistentes bajo la descoordinación de dialecto entre contexto y pregunta de la siguiente manera: +1.09 F1/+0.87 EM en SQuAD, +1.54/+1.25 en Vlogs y +2.75/+2.27 en Narrativas, con las mayores ganancias para preguntas magrebíes en Narrativas (+12.13 F1/+8.45 EM). Estos resultados muestran que nuestro método mejora la transferencia entre dialectos en cero disparo sin ajuste fino ni reentrenamiento.
Descripción
El árabe estándar moderno (MSA) y los muchos dialectos regionales difieren sustancialmente en vocabulario, morfología y uso pragmático. La mayoría de los recursos anotados disponibles están en MSA, y la transferencia cero disparo de MSA a tareas dialectales sufre una gran caída en el rendimiento. Este artículo aborda la respuesta a preguntas árabes generalizadas entre dialectos, donde el contexto y la pregunta están escritos en diferentes variedades árabes. Proponemos un marco de aumento sin entrenamiento que genera preguntas mezcladas en código para cerrar las brechas léxicas entre las variedades árabes. El método produce preguntas mezcladas en código semánticamente fieles y equilibradas a través del siguiente procedimiento en dos etapas: sustitución parcial basada en léxico con similitud semántica y restricciones de tasa de sustitución, seguido de traducción automática neuronal de respaldo con alineación a nivel de palabra cuando sea necesario. También introducimos la construcción automatizada de léxicos multidialectales utilizando traducción automática, alineación basada en incrustaciones y verificaciones semánticas. Llevamos a cabo nuestra evaluación en un entorno de cero disparo, donde el modelo se ajusta finamente solo en MSA y luego se prueba con entradas dialectales utilizando ArDQA, cubriendo cinco variedades árabes y tres dominios (SQuAD, Vlogs y Narrativas). Los experimentos muestran mejoras consistentes bajo la descoordinación de dialecto entre contexto y pregunta de la siguiente manera: +1.09 F1/+0.87 EM en SQuAD, +1.54/+1.25 en Vlogs y +2.75/+2.27 en Narrativas, con las mayores ganancias para preguntas magrebíes en Narrativas (+12.13 F1/+8.45 EM). Estos resultados muestran que nuestro método mejora la transferencia entre dialectos en cero disparo sin ajuste fino ni reentrenamiento.