logo móvil
Contáctanos

Robusta ampliación de datos para traducción automática neuronal a través de EVALNET

Autores: Park, Yo-Han; Choi, Yong-Seok; Yun, Seung; Kim, Sang-Hun; Lee, Kong-Joo

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Robusta ampliación de datos para traducción automática neuronal a través de EVALNET


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aumento de datos
Sistemas NMT
EvalNet
Valor de pérdida
Mapa de atención cruzada
Similitud semántica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Dado que la construcción de sistemas de Traducción Automática Neural (NMT) requiere un gran corpus paralelo, se han adoptado diversas técnicas de aumento de datos, especialmente para idiomas con recursos limitados. Con el fin de lograr el mejor rendimiento a través del aumento de datos, los sistemas NMT deben ser capaces de evaluar la calidad de los datos aumentados. Varios estudios han abordado técnicas de ponderación de datos para evaluar la calidad de los datos. La idea básica de la ponderación de datos adoptada en estudios anteriores es el valor de pérdida que un sistema calcula al aprender de los datos de entrenamiento. El peso derivado del valor de pérdida de los datos, a través de reglas heurísticas simples o modelos neuronales, puede ajustar la pérdida utilizada en el siguiente paso del proceso de aprendizaje. En este estudio, proponemos EvalNet, una red de evaluación de datos, para evaluar datos paralelos de NMT. EvalNet explota un valor de pérdida, un mapa de atención cruzada y una similitud semántica entre datos paralelos como sus características. El mapa de atención cruzada es una representación codificada de capas de atención cruzada de Transformer, que es una arquitectura base de un sistema NMT. La similitud semántica es una distancia coseno entre dos incrustaciones semánticas de una oración fuente y una oración objetivo. Debido a la paralelización de datos, la combinación del mapa de atención cruzada y la similitud semántica demostró ser características efectivas para la evaluación de la calidad de los datos, además del valor de pérdida. EvalNet es la primera red evaluadora de datos NMT que introduce el mapa de atención cruzada y la similitud semántica como sus características. A través de varios experimentos, concluimos que EvalNet es simple pero beneficioso para el entrenamiento robusto de un sistema NMT y supera a los estudios anteriores como evaluador de datos.

Otros recursos que podrían interesarte

Temas Virtualpro