Destilando modelos monolingües de grandes transformadores multilingües
Autores: Singh, Pranaydeep; De Clercq, Orphée; Lefever, Els
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Destilando modelos monolingües de grandes transformadores multilingües
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelado del lenguaje
Idiomas con recursos limitados
Modelos multilingües
Técnicas de destilación de conocimientos
Tareas posteriores
Ajuste de vocabulario
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
A pesar de que la modelización del lenguaje ha estado aumentando constantemente, los modelos disponibles para los idiomas con recursos limitados se limitan a grandes modelos multilingües como mBERT y XLM-RoBERTa, que vienen con costos significativos para su implementación en términos de tamaño del modelo, velocidad de inferencia, etc. Intentamos abordar este problema proponiendo una metodología novedosa para aplicar técnicas de destilación de conocimientos para filtrar información específica del lenguaje de un modelo multilingüe grande en un modelo monolingüe pequeño y rápido que a menudo puede superar al modelo maestro. Demostramos la viabilidad de esta metodología en dos tareas posteriores para seis idiomas. Además, profundizamos en las posibles modificaciones al ajuste básico para los idiomas con recursos limitados explorando ideas para ajustar el vocabulario final de los modelos destilados. Por último, realizamos un estudio de ablación detallado para comprender mejor los diferentes componentes de la configuración y descubrir qué funciona mejor para los dos idiomas con recursos limitados, el suajili y el esloveno.
Descripción
A pesar de que la modelización del lenguaje ha estado aumentando constantemente, los modelos disponibles para los idiomas con recursos limitados se limitan a grandes modelos multilingües como mBERT y XLM-RoBERTa, que vienen con costos significativos para su implementación en términos de tamaño del modelo, velocidad de inferencia, etc. Intentamos abordar este problema proponiendo una metodología novedosa para aplicar técnicas de destilación de conocimientos para filtrar información específica del lenguaje de un modelo multilingüe grande en un modelo monolingüe pequeño y rápido que a menudo puede superar al modelo maestro. Demostramos la viabilidad de esta metodología en dos tareas posteriores para seis idiomas. Además, profundizamos en las posibles modificaciones al ajuste básico para los idiomas con recursos limitados explorando ideas para ajustar el vocabulario final de los modelos destilados. Por último, realizamos un estudio de ablación detallado para comprender mejor los diferentes componentes de la configuración y descubrir qué funciona mejor para los dos idiomas con recursos limitados, el suajili y el esloveno.