Decodificación estrategias para mejorar la traducción automática de recursos bajos
Autores: Park, Chanjun; Yang, Yeongwook; Park, Kinam; Lim, Heuiseok
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Decodificación estrategias para mejorar la traducción automática de recursos bajos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Preprocesamiento
Postprocesamiento
Traducción automática neuronal
PLN
Estrategias de decodificación
Idiomas de recursos limitados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El preprocesamiento y el postprocesamiento son aspectos significativos del software de aplicaciones de procesamiento del lenguaje natural (NLP). El preprocesamiento en la traducción automática neuronal (NMT) incluye la tokenización de subpalabras para aliviar el problema de las palabras desconocidas, el filtrado de corpus paralelos que solo filtra datos adecuados para el entrenamiento y la ampliación de datos para garantizar que el corpus contenga contenido suficiente. El postprocesamiento incluye la edición automática posterior y la aplicación de diversas estrategias durante la decodificación en el proceso de traducción. La mayoría de las investigaciones recientes de NLP se basan en el Enfoque de Preentrenamiento-Ajuste Fino (PFA). Sin embargo, cuando las organizaciones pequeñas y medianas con hardware insuficiente intentan proporcionar servicios de NLP, a menudo surgen problemas de rendimiento y memoria. Estas dificultades aumentan al utilizar PFA para procesar idiomas de recursos limitados, ya que PFA requiere grandes cantidades de datos y los datos para los idiomas de recursos limitados suelen ser insuficientes. Utilizando la premisa de investigación actual de que el rendimiento del modelo NMT puede mejorarse a través de diversas estrategias de preprocesamiento y postprocesamiento sin cambiar el modelo, aplicamos diversas estrategias de decodificación a la NMT coreano-inglés, que se basa en un par de idiomas de recursos limitados. A través de experimentos comparativos, demostramos que el rendimiento de la traducción podría mejorarse sin cambios en el modelo. Examinamos experimentalmente cómo cambió el rendimiento en respuesta a cambios en el tamaño del haz y el bloqueo de n-gramos, y si el rendimiento mejoraba cuando se aplicaba una penalización por longitud. Los resultados mostraron que diversas estrategias de decodificación mejoran el rendimiento y se comparan bien con enfoques anteriores de NMT coreano-inglés. Por lo tanto, la metodología propuesta puede mejorar el rendimiento de los modelos NMT, sin el uso de PFA; esto presenta una nueva perspectiva para mejorar el rendimiento de la traducción automática.
Descripción
El preprocesamiento y el postprocesamiento son aspectos significativos del software de aplicaciones de procesamiento del lenguaje natural (NLP). El preprocesamiento en la traducción automática neuronal (NMT) incluye la tokenización de subpalabras para aliviar el problema de las palabras desconocidas, el filtrado de corpus paralelos que solo filtra datos adecuados para el entrenamiento y la ampliación de datos para garantizar que el corpus contenga contenido suficiente. El postprocesamiento incluye la edición automática posterior y la aplicación de diversas estrategias durante la decodificación en el proceso de traducción. La mayoría de las investigaciones recientes de NLP se basan en el Enfoque de Preentrenamiento-Ajuste Fino (PFA). Sin embargo, cuando las organizaciones pequeñas y medianas con hardware insuficiente intentan proporcionar servicios de NLP, a menudo surgen problemas de rendimiento y memoria. Estas dificultades aumentan al utilizar PFA para procesar idiomas de recursos limitados, ya que PFA requiere grandes cantidades de datos y los datos para los idiomas de recursos limitados suelen ser insuficientes. Utilizando la premisa de investigación actual de que el rendimiento del modelo NMT puede mejorarse a través de diversas estrategias de preprocesamiento y postprocesamiento sin cambiar el modelo, aplicamos diversas estrategias de decodificación a la NMT coreano-inglés, que se basa en un par de idiomas de recursos limitados. A través de experimentos comparativos, demostramos que el rendimiento de la traducción podría mejorarse sin cambios en el modelo. Examinamos experimentalmente cómo cambió el rendimiento en respuesta a cambios en el tamaño del haz y el bloqueo de n-gramos, y si el rendimiento mejoraba cuando se aplicaba una penalización por longitud. Los resultados mostraron que diversas estrategias de decodificación mejoran el rendimiento y se comparan bien con enfoques anteriores de NMT coreano-inglés. Por lo tanto, la metodología propuesta puede mejorar el rendimiento de los modelos NMT, sin el uso de PFA; esto presenta una nueva perspectiva para mejorar el rendimiento de la traducción automática.