Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente

Autores: Jooste, Wandri; Haque, Rejwanul; Way, Andy

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Destilación de Conocimiento: Un Método para Hacer que la Traducción Automática Neuronal Sea Más Eficiente

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal

Técnicas de destilación de conocimiento

Escenarios de bajos recursos

Cabezales de transformador

Compresión de modelos

Conocimiento a nivel de secuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los sistemas de traducción automática neuronal (NMT) han mejorado enormemente la calidad disponible de la traducción automática (MT) en comparación con los sistemas de traducción automática estadística (SMT). Sin embargo, estos modelos NMT de última generación requieren mucha más potencia de cálculo y datos que los modelos SMT, un requisito que no es sostenible a largo plazo y de muy limitado beneficio en escenarios de bajos recursos. En cierta medida, la compresión de modelos, más específicamente las técnicas de destilación de conocimiento de última generación, pueden remediar esto. En este trabajo, investigamos la destilación de conocimiento en una tarea simulada de traducción de alemán a inglés de bajos recursos. Mostramos que la destilación de conocimiento a nivel de secuencia se puede utilizar para entrenar pequeños modelos estudiantes con el conocimiento destilado de grandes modelos maestros. Parte de este trabajo examina la influencia de la optimización de hiperparámetros en el rendimiento del modelo al reducir el número de cabezas de Transformer o limitar el tamaño del vocabulario. Curiosamente, la precisión de estos modelos estudiantes es mayor que la de los maestros en algunos casos, a pesar de que los tiempos de entrenamiento del modelo estudiante son más cortos en algunos casos. En una contribución novedosa, demostramos para un proveedor específico de servicios de MT que en la fase posterior al despliegue, los modelos estudiantes destilados pueden reducir las emisiones, así como el costo puramente en términos monetarios, en casi un 50%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro