logo móvil
Contáctanos

Un estudio empírico de la traducción automática neuronal basada en transformadores para inglés a árabe

Autores: Alrashidi, Fares; Mathkour, Hassan I.

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Un estudio empírico de la traducción automática neuronal basada en transformadores para inglés a árabe


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal
Estrategias de tokenización
Condiciones de bajos recursos
Traducción inglés árabe
Modelo de transformador pequeño
Calidad de la traducción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El rendimiento de la traducción automática neuronal (NMT) está fuertemente influenciado por las estrategias de tokenización, particularmente para lenguas ricamente morfológicas como el árabe. A pesar de la importancia de la tokenización, hay una falta de estudios controlados y reproducibles que examinen su impacto en condiciones de bajos recursos, lo que limita nuestra comprensión de cómo diferentes métodos afectan la calidad de la traducción y la dinámica de entrenamiento. Este artículo presenta un estudio experimental controlado que analiza el impacto de diferentes métodos de tokenización en la traducción de inglés a árabe (EN-AR) utilizando un modelo Tiny Transformer en condiciones de bajos recursos. El estudio tiene como objetivo proporcionar una comparación sistemática y reproducible que aísle el efecto de las elecciones de tokenización bajo restricciones fijas de modelado y entrenamiento. Los experimentos se realizan con una arquitectura idéntica, pasos de entrenamiento, procedimiento de decodificación y pipeline de evaluación para garantizar la reproducibilidad. La calidad de la traducción se evalúa utilizando múltiples métricas, incluyendo BLEU, ChrF++, TER y BERTScore, revelando divergencias sustanciales y demostrando empíricamente, en el contexto de NMT árabe de bajos recursos, que BLEU por sí solo es insuficiente para una evaluación confiable. Si bien se conocen las limitaciones de BLEU en general, nuestros resultados proporcionan nueva evidencia que muestra que, en condiciones de bajos recursos y a través de diferentes estrategias de tokenización, la dependencia de BLEU puede llevar a conclusiones engañosas sobre la calidad de la traducción. Las dinámicas de entrenamiento se analizan utilizando TensorBoard, vinculando las estrategias de tokenización a diferencias en convergencia, saturación y estabilidad. Para la validación, un experimento de pequeña escala de inglés a alemán (EN-DE) confirma que la configuración de Tiny Transformer reproduce el comportamiento esperado. La contribución de este trabajo radica en establecer evidencia empírica controlada y perspectivas prácticas, en lugar de ganancias de rendimiento absolutas, para NMT árabe de bajos recursos. Nuestros resultados proporcionan evidencia controlada de que la elección de la tokenización afecta críticamente tanto la calidad de la traducción como las dinámicas de optimización, ofreciendo orientación práctica para la investigación de NMT árabe de bajos recursos. En general, la codificación de pares de bytes (BPE) logra el mejor equilibrio entre métricas de nivel superficial y semántico en condiciones controladas de bajos recursos (BLEU: 8.57, ChrF++: 18.56, TER: 97.38, BERTScore-F1: 0.785). La tokenización a nivel de caracteres produce una mayor similitud semántica que los métodos basados en subpalabras, como lo refleja BERTScore, pero sigue siendo más débil en fidelidad estructural y precisión de forma superficial, mientras que SentencePiece exhibe un comportamiento intermedio, favoreciendo la adecuación semántica sobre el emparejamiento exacto de n-gramas. Estos resultados confirman que la elección de la tokenización influye críticamente tanto en los resultados de evaluación como en el comportamiento de optimización, y que BLEU por sí solo es insuficiente para evaluar la calidad de la traducción árabe.

Otros recursos que podrían interesarte

Temas Virtualpro