Un método de aumento de datos de traducción automática neuronal genérico de escenario
Autores: Liu, Xiner; He, Jianshu; Liu, Mingzhe; Yin, Zhengtong; Yin, Lirong; Zheng, Wenfeng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un método de aumento de datos de traducción automática neuronal genérico de escenario
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Avance
Traducción automática neuronal
Escasez de datos
Técnica de aumento de datos
Sustitución de palabras de baja frecuencia
Enfoque de traducción inversa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
En medio del rápido avance de la traducción automática neuronal, el desafío de la escasez de datos ha sido un obstáculo importante. Para abordar este problema, este estudio propone una técnica general de aumento de datos para varios escenarios. Examina el problema de la diversidad de corpus paralelos y la alta calidad tanto en entornos ricos como de recursos limitados, e integra el método de sustitución de palabras de baja frecuencia y el enfoque de traducción inversa para obtener beneficios complementarios. Además, este método mejora el corpus pseudo-paralelo generado por el método de traducción inversa mediante la sustitución de palabras de baja frecuencia e incluye un módulo de corrección de errores gramaticales para reducir errores gramaticales en escenarios de recursos limitados. Los datos experimentales se dividen en escenarios ricos y de recursos limitados en una proporción de 10:1. Se verifica la necesidad de corrección de errores gramaticales para el pseudo-corpus en escenarios de recursos limitados. Se eligen modelos y métodos de la red base y literatura relacionada para experimentos comparativos. Los hallazgos experimentales demuestran que el enfoque de aumento de datos propuesto en este estudio es adecuado para escenarios ricos y de recursos limitados, y es efectivo para mejorar el corpus de entrenamiento y así mejorar el rendimiento de las tareas de traducción.
Descripción
En medio del rápido avance de la traducción automática neuronal, el desafío de la escasez de datos ha sido un obstáculo importante. Para abordar este problema, este estudio propone una técnica general de aumento de datos para varios escenarios. Examina el problema de la diversidad de corpus paralelos y la alta calidad tanto en entornos ricos como de recursos limitados, e integra el método de sustitución de palabras de baja frecuencia y el enfoque de traducción inversa para obtener beneficios complementarios. Además, este método mejora el corpus pseudo-paralelo generado por el método de traducción inversa mediante la sustitución de palabras de baja frecuencia e incluye un módulo de corrección de errores gramaticales para reducir errores gramaticales en escenarios de recursos limitados. Los datos experimentales se dividen en escenarios ricos y de recursos limitados en una proporción de 10:1. Se verifica la necesidad de corrección de errores gramaticales para el pseudo-corpus en escenarios de recursos limitados. Se eligen modelos y métodos de la red base y literatura relacionada para experimentos comparativos. Los hallazgos experimentales demuestran que el enfoque de aumento de datos propuesto en este estudio es adecuado para escenarios ricos y de recursos limitados, y es efectivo para mejorar el corpus de entrenamiento y así mejorar el rendimiento de las tareas de traducción.