Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU
Autores: Im, Sio-Kei; Chan, Ka-Hou
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Mecanismo de atención
Traducción automática neuronal
Dependencias a largo plazo
Parte del discurso
Unidad recurrente adaptativa al contenido
Procesamiento del lenguaje natural
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
El mecanismo de atención funciona bien para la tarea de Traducción Automática Neural (NMT), pero depende en gran medida de los vectores de contexto generados por la red de atención para predecir las palabras objetivo. Esta dependencia plantea el problema de las dependencias a largo plazo. De hecho, es muy común combinar predicados con posposiciones en las oraciones, y el mismo predicado puede tener diferentes significados al combinarse con diferentes posposiciones. Esto suele plantear un desafío adicional para el estudio de NMT. En este trabajo, observamos que los vectores de incrustación de diferentes tokens objetivo pueden clasificarse por parte del discurso, por lo tanto, analizamos la Unidad Recurrente Adaptable al Contenido (CARU) relacionada con el Procesamiento del Lenguaje Natural (NLP) y la aplicamos a nuestro modelo de atención y capa de incrustación. Al codificar la oración fuente con la característica decodificada actual a través de CARU, es capaz de lograr representaciones de traducción adaptables al contenido, cuyos pesos de atención son contribuidos y mejorados por nuestra normalización propuesta. Además, busca aliviar las dependencias a largo plazo en el idioma objetivo a través de un diseño recurrente parcial, realizando la extracción de características en una perspectiva local. Los experimentos en las tareas de traducción WMT14, WMT17 y Multi30k muestran que el modelo propuesto logra mejoras en las puntuaciones BLEU y una mejora en la convergencia sobre el modelo NMT simple basado en atención. También investigamos los pesos de atención generados por los enfoques propuestos, que indican que la refinación sobre las diferentes combinaciones de adposición puede llevar a interpretaciones diferentes. Específicamente, este trabajo proporciona atención local a algunas frases específicas traducidas en nuestro experimento. Los resultados demuestran que nuestro enfoque es efectivo para mejorar el rendimiento y lograr una distribución de atención más razonable en comparación con los modelos de vanguardia.
Descripción
El mecanismo de atención funciona bien para la tarea de Traducción Automática Neural (NMT), pero depende en gran medida de los vectores de contexto generados por la red de atención para predecir las palabras objetivo. Esta dependencia plantea el problema de las dependencias a largo plazo. De hecho, es muy común combinar predicados con posposiciones en las oraciones, y el mismo predicado puede tener diferentes significados al combinarse con diferentes posposiciones. Esto suele plantear un desafío adicional para el estudio de NMT. En este trabajo, observamos que los vectores de incrustación de diferentes tokens objetivo pueden clasificarse por parte del discurso, por lo tanto, analizamos la Unidad Recurrente Adaptable al Contenido (CARU) relacionada con el Procesamiento del Lenguaje Natural (NLP) y la aplicamos a nuestro modelo de atención y capa de incrustación. Al codificar la oración fuente con la característica decodificada actual a través de CARU, es capaz de lograr representaciones de traducción adaptables al contenido, cuyos pesos de atención son contribuidos y mejorados por nuestra normalización propuesta. Además, busca aliviar las dependencias a largo plazo en el idioma objetivo a través de un diseño recurrente parcial, realizando la extracción de características en una perspectiva local. Los experimentos en las tareas de traducción WMT14, WMT17 y Multi30k muestran que el modelo propuesto logra mejoras en las puntuaciones BLEU y una mejora en la convergencia sobre el modelo NMT simple basado en atención. También investigamos los pesos de atención generados por los enfoques propuestos, que indican que la refinación sobre las diferentes combinaciones de adposición puede llevar a interpretaciones diferentes. Específicamente, este trabajo proporciona atención local a algunas frases específicas traducidas en nuestro experimento. Los resultados demuestran que nuestro enfoque es efectivo para mejorar el rendimiento y lograr una distribución de atención más razonable en comparación con los modelos de vanguardia.