logo móvil
Contáctanos

Destilando modelos monolingües de grandes transformadores multilingües

Autores: Singh, Pranaydeep; De Clercq, Orphée; Lefever, Els

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Destilando modelos monolingües de grandes transformadores multilingües


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelado del lenguaje
Idiomas con recursos limitados
Modelos multilingües
Técnicas de destilación de conocimientos
Tareas posteriores
Ajuste de vocabulario

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
A pesar de que la modelización del lenguaje ha estado aumentando constantemente, los modelos disponibles para los idiomas con recursos limitados se limitan a grandes modelos multilingües como mBERT y XLM-RoBERTa, que vienen con costos significativos para su implementación en términos de tamaño del modelo, velocidad de inferencia, etc. Intentamos abordar este problema proponiendo una metodología novedosa para aplicar técnicas de destilación de conocimientos para filtrar información específica del lenguaje de un modelo multilingüe grande en un modelo monolingüe pequeño y rápido que a menudo puede superar al modelo maestro. Demostramos la viabilidad de esta metodología en dos tareas posteriores para seis idiomas. Además, profundizamos en las posibles modificaciones al ajuste básico para los idiomas con recursos limitados explorando ideas para ajustar el vocabulario final de los modelos destilados. Por último, realizamos un estudio de ablación detallado para comprender mejor los diferentes componentes de la configuración y descubrir qué funciona mejor para los dos idiomas con recursos limitados, el suajili y el esloveno.

Otros recursos que podrían interesarte

Temas Virtualpro