Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente
Autores: Jooste, Wandri; Haque, Rejwanul; Way, Andy
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Traducción automática neuronal
Técnicas de destilación de conocimiento
Escenarios de bajos recursos
Cabezales de transformador
Compresión de modelos
Conocimiento a nivel de secuencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los sistemas de traducción automática neuronal (NMT) han mejorado enormemente la calidad disponible de la traducción automática (MT) en comparación con los sistemas de traducción automática estadística (SMT). Sin embargo, estos modelos NMT de última generación requieren mucha más potencia de cálculo y datos que los modelos SMT, un requisito que no es sostenible a largo plazo y de muy limitado beneficio en escenarios de bajos recursos. En cierta medida, la compresión de modelos, más específicamente las técnicas de destilación de conocimiento de última generación, pueden remediar esto. En este trabajo, investigamos la destilación de conocimiento en una tarea simulada de traducción de alemán a inglés de bajos recursos. Mostramos que la destilación de conocimiento a nivel de secuencia se puede utilizar para entrenar pequeños modelos estudiantes con el conocimiento destilado de grandes modelos maestros. Parte de este trabajo examina la influencia de la optimización de hiperparámetros en el rendimiento del modelo al reducir el número de cabezas de Transformer o limitar el tamaño del vocabulario. Curiosamente, la precisión de estos modelos estudiantes es mayor que la de los maestros en algunos casos, a pesar de que los tiempos de entrenamiento del modelo estudiante son más cortos en algunos casos. En una contribución novedosa, demostramos para un proveedor específico de servicios de MT que en la fase posterior al despliegue, los modelos estudiantes destilados pueden reducir las emisiones, así como el costo puramente en términos monetarios, en casi un 50%.
Descripción
Los sistemas de traducción automática neuronal (NMT) han mejorado enormemente la calidad disponible de la traducción automática (MT) en comparación con los sistemas de traducción automática estadística (SMT). Sin embargo, estos modelos NMT de última generación requieren mucha más potencia de cálculo y datos que los modelos SMT, un requisito que no es sostenible a largo plazo y de muy limitado beneficio en escenarios de bajos recursos. En cierta medida, la compresión de modelos, más específicamente las técnicas de destilación de conocimiento de última generación, pueden remediar esto. En este trabajo, investigamos la destilación de conocimiento en una tarea simulada de traducción de alemán a inglés de bajos recursos. Mostramos que la destilación de conocimiento a nivel de secuencia se puede utilizar para entrenar pequeños modelos estudiantes con el conocimiento destilado de grandes modelos maestros. Parte de este trabajo examina la influencia de la optimización de hiperparámetros en el rendimiento del modelo al reducir el número de cabezas de Transformer o limitar el tamaño del vocabulario. Curiosamente, la precisión de estos modelos estudiantes es mayor que la de los maestros en algunos casos, a pesar de que los tiempos de entrenamiento del modelo estudiante son más cortos en algunos casos. En una contribución novedosa, demostramos para un proveedor específico de servicios de MT que en la fase posterior al despliegue, los modelos estudiantes destilados pueden reducir las emisiones, así como el costo puramente en términos monetarios, en casi un 50%.