Un estudio empírico de la traducción automática neuronal basada en transformadores para inglés a árabe
Autores: Alrashidi, Fares; Mathkour, Hassan I.
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un estudio empírico de la traducción automática neuronal basada en transformadores para inglés a árabe
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Traducción automática neuronal
Estrategias de tokenización
Condiciones de bajos recursos
Traducción inglés árabe
Modelo de transformador pequeño
Calidad de la traducción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El rendimiento de la traducción automática neuronal (NMT) está fuertemente influenciado por las estrategias de tokenización, particularmente para lenguas ricamente morfológicas como el árabe. A pesar de la importancia de la tokenización, hay una falta de estudios controlados y reproducibles que examinen su impacto en condiciones de bajos recursos, lo que limita nuestra comprensión de cómo diferentes métodos afectan la calidad de la traducción y la dinámica de entrenamiento. Este artículo presenta un estudio experimental controlado que analiza el impacto de diferentes métodos de tokenización en la traducción de inglés a árabe (EN-AR) utilizando un modelo Tiny Transformer en condiciones de bajos recursos. El estudio tiene como objetivo proporcionar una comparación sistemática y reproducible que aísle el efecto de las elecciones de tokenización bajo restricciones fijas de modelado y entrenamiento. Los experimentos se realizan con una arquitectura idéntica, pasos de entrenamiento, procedimiento de decodificación y pipeline de evaluación para garantizar la reproducibilidad. La calidad de la traducción se evalúa utilizando múltiples métricas, incluyendo BLEU, ChrF++, TER y BERTScore, revelando divergencias sustanciales y demostrando empíricamente, en el contexto de NMT árabe de bajos recursos, que BLEU por sí solo es insuficiente para una evaluación confiable. Si bien se conocen las limitaciones de BLEU en general, nuestros resultados proporcionan nueva evidencia que muestra que, en condiciones de bajos recursos y a través de diferentes estrategias de tokenización, la dependencia de BLEU puede llevar a conclusiones engañosas sobre la calidad de la traducción. Las dinámicas de entrenamiento se analizan utilizando TensorBoard, vinculando las estrategias de tokenización a diferencias en convergencia, saturación y estabilidad. Para la validación, un experimento de pequeña escala de inglés a alemán (EN-DE) confirma que la configuración de Tiny Transformer reproduce el comportamiento esperado. La contribución de este trabajo radica en establecer evidencia empírica controlada y perspectivas prácticas, en lugar de ganancias de rendimiento absolutas, para NMT árabe de bajos recursos. Nuestros resultados proporcionan evidencia controlada de que la elección de la tokenización afecta críticamente tanto la calidad de la traducción como las dinámicas de optimización, ofreciendo orientación práctica para la investigación de NMT árabe de bajos recursos. En general, la codificación de pares de bytes (BPE) logra el mejor equilibrio entre métricas de nivel superficial y semántico en condiciones controladas de bajos recursos (BLEU: 8.57, ChrF++: 18.56, TER: 97.38, BERTScore-F1: 0.785). La tokenización a nivel de caracteres produce una mayor similitud semántica que los métodos basados en subpalabras, como lo refleja BERTScore, pero sigue siendo más débil en fidelidad estructural y precisión de forma superficial, mientras que SentencePiece exhibe un comportamiento intermedio, favoreciendo la adecuación semántica sobre el emparejamiento exacto de n-gramas. Estos resultados confirman que la elección de la tokenización influye críticamente tanto en los resultados de evaluación como en el comportamiento de optimización, y que BLEU por sí solo es insuficiente para evaluar la calidad de la traducción árabe.
Descripción
El rendimiento de la traducción automática neuronal (NMT) está fuertemente influenciado por las estrategias de tokenización, particularmente para lenguas ricamente morfológicas como el árabe. A pesar de la importancia de la tokenización, hay una falta de estudios controlados y reproducibles que examinen su impacto en condiciones de bajos recursos, lo que limita nuestra comprensión de cómo diferentes métodos afectan la calidad de la traducción y la dinámica de entrenamiento. Este artículo presenta un estudio experimental controlado que analiza el impacto de diferentes métodos de tokenización en la traducción de inglés a árabe (EN-AR) utilizando un modelo Tiny Transformer en condiciones de bajos recursos. El estudio tiene como objetivo proporcionar una comparación sistemática y reproducible que aísle el efecto de las elecciones de tokenización bajo restricciones fijas de modelado y entrenamiento. Los experimentos se realizan con una arquitectura idéntica, pasos de entrenamiento, procedimiento de decodificación y pipeline de evaluación para garantizar la reproducibilidad. La calidad de la traducción se evalúa utilizando múltiples métricas, incluyendo BLEU, ChrF++, TER y BERTScore, revelando divergencias sustanciales y demostrando empíricamente, en el contexto de NMT árabe de bajos recursos, que BLEU por sí solo es insuficiente para una evaluación confiable. Si bien se conocen las limitaciones de BLEU en general, nuestros resultados proporcionan nueva evidencia que muestra que, en condiciones de bajos recursos y a través de diferentes estrategias de tokenización, la dependencia de BLEU puede llevar a conclusiones engañosas sobre la calidad de la traducción. Las dinámicas de entrenamiento se analizan utilizando TensorBoard, vinculando las estrategias de tokenización a diferencias en convergencia, saturación y estabilidad. Para la validación, un experimento de pequeña escala de inglés a alemán (EN-DE) confirma que la configuración de Tiny Transformer reproduce el comportamiento esperado. La contribución de este trabajo radica en establecer evidencia empírica controlada y perspectivas prácticas, en lugar de ganancias de rendimiento absolutas, para NMT árabe de bajos recursos. Nuestros resultados proporcionan evidencia controlada de que la elección de la tokenización afecta críticamente tanto la calidad de la traducción como las dinámicas de optimización, ofreciendo orientación práctica para la investigación de NMT árabe de bajos recursos. En general, la codificación de pares de bytes (BPE) logra el mejor equilibrio entre métricas de nivel superficial y semántico en condiciones controladas de bajos recursos (BLEU: 8.57, ChrF++: 18.56, TER: 97.38, BERTScore-F1: 0.785). La tokenización a nivel de caracteres produce una mayor similitud semántica que los métodos basados en subpalabras, como lo refleja BERTScore, pero sigue siendo más débil en fidelidad estructural y precisión de forma superficial, mientras que SentencePiece exhibe un comportamiento intermedio, favoreciendo la adecuación semántica sobre el emparejamiento exacto de n-gramas. Estos resultados confirman que la elección de la tokenización influye críticamente tanto en los resultados de evaluación como en el comportamiento de optimización, y que BLEU por sí solo es insuficiente para evaluar la calidad de la traducción árabe.