logo móvil
Contáctanos

Un método de aumento de datos de traducción automática neuronal genérico de escenario

Autores: Liu, Xiner; He, Jianshu; Liu, Mingzhe; Yin, Zhengtong; Yin, Lirong; Zheng, Wenfeng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un método de aumento de datos de traducción automática neuronal genérico de escenario


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Avance
Traducción automática neuronal
Escasez de datos
Técnica de aumento de datos
Sustitución de palabras de baja frecuencia
Enfoque de traducción inversa

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 44

Citaciones: Sin citaciones


Descripción
En medio del rápido avance de la traducción automática neuronal, el desafío de la escasez de datos ha sido un obstáculo importante. Para abordar este problema, este estudio propone una técnica general de aumento de datos para varios escenarios. Examina el problema de la diversidad de corpus paralelos y la alta calidad tanto en entornos ricos como de recursos limitados, e integra el método de sustitución de palabras de baja frecuencia y el enfoque de traducción inversa para obtener beneficios complementarios. Además, este método mejora el corpus pseudo-paralelo generado por el método de traducción inversa mediante la sustitución de palabras de baja frecuencia e incluye un módulo de corrección de errores gramaticales para reducir errores gramaticales en escenarios de recursos limitados. Los datos experimentales se dividen en escenarios ricos y de recursos limitados en una proporción de 10:1. Se verifica la necesidad de corrección de errores gramaticales para el pseudo-corpus en escenarios de recursos limitados. Se eligen modelos y métodos de la red base y literatura relacionada para experimentos comparativos. Los hallazgos experimentales demuestran que el enfoque de aumento de datos propuesto en este estudio es adecuado para escenarios ricos y de recursos limitados, y es efectivo para mejorar el corpus de entrenamiento y así mejorar el rendimiento de las tareas de traducción.

Otros recursos que podrían interesarte

Temas Virtualpro