Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU

Autores: Im, Sio-Kei; Chan, Ka-Hou

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Traducción neuronal automática con capa de incrustación CARU y capa de atención con compuertas CARU

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Mecanismo de atención

Traducción automática neuronal

Dependencias a largo plazo

Parte del discurso

Unidad recurrente adaptativa al contenido

Procesamiento del lenguaje natural

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

El mecanismo de atención funciona bien para la tarea de Traducción Automática Neural (NMT), pero depende en gran medida de los vectores de contexto generados por la red de atención para predecir las palabras objetivo. Esta dependencia plantea el problema de las dependencias a largo plazo. De hecho, es muy común combinar predicados con posposiciones en las oraciones, y el mismo predicado puede tener diferentes significados al combinarse con diferentes posposiciones. Esto suele plantear un desafío adicional para el estudio de NMT. En este trabajo, observamos que los vectores de incrustación de diferentes tokens objetivo pueden clasificarse por parte del discurso, por lo tanto, analizamos la Unidad Recurrente Adaptable al Contenido (CARU) relacionada con el Procesamiento del Lenguaje Natural (NLP) y la aplicamos a nuestro modelo de atención y capa de incrustación. Al codificar la oración fuente con la característica decodificada actual a través de CARU, es capaz de lograr representaciones de traducción adaptables al contenido, cuyos pesos de atención son contribuidos y mejorados por nuestra normalización propuesta. Además, busca aliviar las dependencias a largo plazo en el idioma objetivo a través de un diseño recurrente parcial, realizando la extracción de características en una perspectiva local. Los experimentos en las tareas de traducción WMT14, WMT17 y Multi30k muestran que el modelo propuesto logra mejoras en las puntuaciones BLEU y una mejora en la convergencia sobre el modelo NMT simple basado en atención. También investigamos los pesos de atención generados por los enfoques propuestos, que indican que la refinación sobre las diferentes combinaciones de adposición puede llevar a interpretaciones diferentes. Específicamente, este trabajo proporciona atención local a algunas frases específicas traducidas en nuestro experimento. Los resultados demuestran que nuestro enfoque es efectivo para mejorar el rendimiento y lograr una distribución de atención más razonable en comparación con los modelos de vanguardia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro