logo móvil
Contáctanos

Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente

Autores: Jooste, Wandri; Haque, Rejwanul; Way, Andy

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal
Técnicas de destilación de conocimiento
Escenarios de bajos recursos
Cabezales de transformador
Compresión de modelos
Conocimiento a nivel de secuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los sistemas de traducción automática neuronal (NMT) han mejorado enormemente la calidad disponible de la traducción automática (MT) en comparación con los sistemas de traducción automática estadística (SMT). Sin embargo, estos modelos NMT de última generación requieren mucha más potencia de cálculo y datos que los modelos SMT, un requisito que no es sostenible a largo plazo y de muy limitado beneficio en escenarios de bajos recursos. En cierta medida, la compresión de modelos, más específicamente las técnicas de destilación de conocimiento de última generación, pueden remediar esto. En este trabajo, investigamos la destilación de conocimiento en una tarea simulada de traducción de alemán a inglés de bajos recursos. Mostramos que la destilación de conocimiento a nivel de secuencia se puede utilizar para entrenar pequeños modelos estudiantes con el conocimiento destilado de grandes modelos maestros. Parte de este trabajo examina la influencia de la optimización de hiperparámetros en el rendimiento del modelo al reducir el número de cabezas de Transformer o limitar el tamaño del vocabulario. Curiosamente, la precisión de estos modelos estudiantes es mayor que la de los maestros en algunos casos, a pesar de que los tiempos de entrenamiento del modelo estudiante son más cortos en algunos casos. En una contribución novedosa, demostramos para un proveedor específico de servicios de MT que en la fase posterior al despliegue, los modelos estudiantes destilados pueden reducir las emisiones, así como el costo puramente en términos monetarios, en casi un 50%.

Otros recursos que podrían interesarte

Temas Virtualpro