Una encuesta sobre métricas de evaluación para traducción automática
Autores: Lee, Seungjun; Lee, Jungseob; Moon, Hyeonseok; Park, Chanjun; Seo, Jaehyung; Eo, Sugyeong; Koo, Seonmin; Lim, Heuiseok
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una encuesta sobre métricas de evaluación para traducción automática
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Arquitectura del transformador
Traducción automática
Red neuronal
Métricas de evaluación
Evaluación automática
Similitud semántica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El éxito de la arquitectura Transformer ha despertado un mayor interés en la traducción automática (MT). La calidad de traducción de MT basada en redes neuronales supera la de las traducciones derivadas de métodos estadísticos. Este crecimiento en la investigación de MT ha implicado el desarrollo de métricas de evaluación automática precisas que nos permiten seguir el rendimiento de MT. Sin embargo, evaluar y comparar automáticamente los sistemas de MT es una tarea desafiante. Varios estudios han demostrado que las métricas tradicionales (por ejemplo, BLEU, TER) muestran un bajo rendimiento en capturar la similitud semántica entre las salidas de MT y las traducciones de referencia humanas. Hasta la fecha, para mejorar el rendimiento, se han propuesto diversas métricas de evaluación utilizando la arquitectura Transformer. Sin embargo, aún falta una revisión sistemática y exhaustiva de la literatura sobre estas métricas. Por lo tanto, es necesario estudiar las métricas de evaluación automática existentes de MT para permitir tanto a investigadores establecidos como a nuevos comprender rápidamente la tendencia de la evaluación de MT en los últimos años. En esta encuesta, presentamos la tendencia de las métricas de evaluación automática. Para comprender mejor los avances en el campo, proporcionamos la taxonomía de las métricas de evaluación automática. Luego, explicamos las principales contribuciones y limitaciones de las métricas. Además, seleccionamos las métricas representativas de la taxonomía y realizamos experimentos para analizar problemas relacionados. Finalmente, discutimos la limitación de los estudios actuales de métricas automáticas a través de la experimentación y nuestras sugerencias para futuras investigaciones para mejorar las métricas de evaluación automática.
Descripción
El éxito de la arquitectura Transformer ha despertado un mayor interés en la traducción automática (MT). La calidad de traducción de MT basada en redes neuronales supera la de las traducciones derivadas de métodos estadísticos. Este crecimiento en la investigación de MT ha implicado el desarrollo de métricas de evaluación automática precisas que nos permiten seguir el rendimiento de MT. Sin embargo, evaluar y comparar automáticamente los sistemas de MT es una tarea desafiante. Varios estudios han demostrado que las métricas tradicionales (por ejemplo, BLEU, TER) muestran un bajo rendimiento en capturar la similitud semántica entre las salidas de MT y las traducciones de referencia humanas. Hasta la fecha, para mejorar el rendimiento, se han propuesto diversas métricas de evaluación utilizando la arquitectura Transformer. Sin embargo, aún falta una revisión sistemática y exhaustiva de la literatura sobre estas métricas. Por lo tanto, es necesario estudiar las métricas de evaluación automática existentes de MT para permitir tanto a investigadores establecidos como a nuevos comprender rápidamente la tendencia de la evaluación de MT en los últimos años. En esta encuesta, presentamos la tendencia de las métricas de evaluación automática. Para comprender mejor los avances en el campo, proporcionamos la taxonomía de las métricas de evaluación automática. Luego, explicamos las principales contribuciones y limitaciones de las métricas. Además, seleccionamos las métricas representativas de la taxonomía y realizamos experimentos para analizar problemas relacionados. Finalmente, discutimos la limitación de los estudios actuales de métricas automáticas a través de la experimentación y nuestras sugerencias para futuras investigaciones para mejorar las métricas de evaluación automática.