logo móvil
Contáctanos

Preguntas y respuestas en árabe generalizado a través de la augmentación de datos adaptativa mezclada por código

Autores: Althobaiti, Maha Jarallah

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Preguntas y respuestas en árabe generalizado a través de la augmentación de datos adaptativa mezclada por código


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Dialectos regionales
Vocabulario
Preguntas mezcladas en código
Variedades árabes
Traducción automática neuronal
Léxico multidialectal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El árabe estándar moderno (MSA) y los muchos dialectos regionales difieren sustancialmente en vocabulario, morfología y uso pragmático. La mayoría de los recursos anotados disponibles están en MSA, y la transferencia cero disparo de MSA a tareas dialectales sufre una gran caída en el rendimiento. Este artículo aborda la respuesta a preguntas árabes generalizadas entre dialectos, donde el contexto y la pregunta están escritos en diferentes variedades árabes. Proponemos un marco de aumento sin entrenamiento que genera preguntas mezcladas en código para cerrar las brechas léxicas entre las variedades árabes. El método produce preguntas mezcladas en código semánticamente fieles y equilibradas a través del siguiente procedimiento en dos etapas: sustitución parcial basada en léxico con similitud semántica y restricciones de tasa de sustitución, seguido de traducción automática neuronal de respaldo con alineación a nivel de palabra cuando sea necesario. También introducimos la construcción automatizada de léxicos multidialectales utilizando traducción automática, alineación basada en incrustaciones y verificaciones semánticas. Llevamos a cabo nuestra evaluación en un entorno de cero disparo, donde el modelo se ajusta finamente solo en MSA y luego se prueba con entradas dialectales utilizando ArDQA, cubriendo cinco variedades árabes y tres dominios (SQuAD, Vlogs y Narrativas). Los experimentos muestran mejoras consistentes bajo la descoordinación de dialecto entre contexto y pregunta de la siguiente manera: +1.09 F1/+0.87 EM en SQuAD, +1.54/+1.25 en Vlogs y +2.75/+2.27 en Narrativas, con las mayores ganancias para preguntas magrebíes en Narrativas (+12.13 F1/+8.45 EM). Estos resultados muestran que nuestro método mejora la transferencia entre dialectos en cero disparo sin ajuste fino ni reentrenamiento.

Otros recursos que podrían interesarte

Temas Virtualpro