logo móvil
Contáctanos

Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU

Autores: Im, Sio-Kei; Chan, Ka-Hou

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Mecanismo de atención
Traducción automática neuronal
Dependencias a largo plazo
Parte del discurso
Unidad recurrente adaptativa al contenido
Procesamiento del lenguaje natural

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
El mecanismo de atención funciona bien para la tarea de Traducción Automática Neural (NMT), pero depende en gran medida de los vectores de contexto generados por la red de atención para predecir las palabras objetivo. Esta dependencia plantea el problema de las dependencias a largo plazo. De hecho, es muy común combinar predicados con posposiciones en las oraciones, y el mismo predicado puede tener diferentes significados al combinarse con diferentes posposiciones. Esto suele plantear un desafío adicional para el estudio de NMT. En este trabajo, observamos que los vectores de incrustación de diferentes tokens objetivo pueden clasificarse por parte del discurso, por lo tanto, analizamos la Unidad Recurrente Adaptable al Contenido (CARU) relacionada con el Procesamiento del Lenguaje Natural (NLP) y la aplicamos a nuestro modelo de atención y capa de incrustación. Al codificar la oración fuente con la característica decodificada actual a través de CARU, es capaz de lograr representaciones de traducción adaptables al contenido, cuyos pesos de atención son contribuidos y mejorados por nuestra normalización propuesta. Además, busca aliviar las dependencias a largo plazo en el idioma objetivo a través de un diseño recurrente parcial, realizando la extracción de características en una perspectiva local. Los experimentos en las tareas de traducción WMT14, WMT17 y Multi30k muestran que el modelo propuesto logra mejoras en las puntuaciones BLEU y una mejora en la convergencia sobre el modelo NMT simple basado en atención. También investigamos los pesos de atención generados por los enfoques propuestos, que indican que la refinación sobre las diferentes combinaciones de adposición puede llevar a interpretaciones diferentes. Específicamente, este trabajo proporciona atención local a algunas frases específicas traducidas en nuestro experimento. Los resultados demuestran que nuestro enfoque es efectivo para mejorar el rendimiento y lograr una distribución de atención más razonable en comparación con los modelos de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro