logo móvil
Contáctanos

Decodificación estrategias para mejorar la traducción automática de recursos bajos

Autores: Park, Chanjun; Yang, Yeongwook; Park, Kinam; Lim, Heuiseok

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Decodificación estrategias para mejorar la traducción automática de recursos bajos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Preprocesamiento
Postprocesamiento
Traducción automática neuronal
PLN
Estrategias de decodificación
Idiomas de recursos limitados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
El preprocesamiento y el postprocesamiento son aspectos significativos del software de aplicaciones de procesamiento del lenguaje natural (NLP). El preprocesamiento en la traducción automática neuronal (NMT) incluye la tokenización de subpalabras para aliviar el problema de las palabras desconocidas, el filtrado de corpus paralelos que solo filtra datos adecuados para el entrenamiento y la ampliación de datos para garantizar que el corpus contenga contenido suficiente. El postprocesamiento incluye la edición automática posterior y la aplicación de diversas estrategias durante la decodificación en el proceso de traducción. La mayoría de las investigaciones recientes de NLP se basan en el Enfoque de Preentrenamiento-Ajuste Fino (PFA). Sin embargo, cuando las organizaciones pequeñas y medianas con hardware insuficiente intentan proporcionar servicios de NLP, a menudo surgen problemas de rendimiento y memoria. Estas dificultades aumentan al utilizar PFA para procesar idiomas de recursos limitados, ya que PFA requiere grandes cantidades de datos y los datos para los idiomas de recursos limitados suelen ser insuficientes. Utilizando la premisa de investigación actual de que el rendimiento del modelo NMT puede mejorarse a través de diversas estrategias de preprocesamiento y postprocesamiento sin cambiar el modelo, aplicamos diversas estrategias de decodificación a la NMT coreano-inglés, que se basa en un par de idiomas de recursos limitados. A través de experimentos comparativos, demostramos que el rendimiento de la traducción podría mejorarse sin cambios en el modelo. Examinamos experimentalmente cómo cambió el rendimiento en respuesta a cambios en el tamaño del haz y el bloqueo de n-gramos, y si el rendimiento mejoraba cuando se aplicaba una penalización por longitud. Los resultados mostraron que diversas estrategias de decodificación mejoran el rendimiento y se comparan bien con enfoques anteriores de NMT coreano-inglés. Por lo tanto, la metodología propuesta puede mejorar el rendimiento de los modelos NMT, sin el uso de PFA; esto presenta una nueva perspectiva para mejorar el rendimiento de la traducción automática.

Otros recursos que podrían interesarte

Temas Virtualpro