Ajuste fino consciente del optimizador de Whisper Small con adaptación de bajo rango: un estudio empírico de Adam y AdamW
Autores: Arshad, Hadia; Abdullah, Tahir; Rehman, Mariam; Hussain, Afzaal; Kanwal, Faria; Parveen, Mehwish
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Ajuste fino consciente del optimizador de Whisper Small con adaptación de bajo rango: un estudio empírico de Adam y AdamW
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelo multilingüe basado en transformadores
Recursos computacionales
Librispeech-train-clean-100
Ajuste fino eficiente en parámetros
Adaptación de Bajo Rango
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Whisper es un modelo multilingüe basado en transformadores que ha demostrado un comportamiento de vanguardia en numerosos idiomas. Sin embargo, la eficiencia sigue siendo un problema con los recursos computacionales limitados. Para abordar este problema, se realizó un experimento en librispeech-train-clean-100 con fines de entrenamiento. Se utilizó el conjunto test-clean para evaluar su rendimiento. Para mejorar la eficiencia y satisfacer las necesidades computacionales, se empleó una técnica de ajuste fino eficiente en parámetros, es decir, Adaptación de Bajo Rango, para agregar un número limitado de parámetros entrenables en las capas congeladas del modelo. Los resultados mostraron que la Adaptación de Bajo Rango logró excelentes resultados en Reconocimiento Automático de Voz mientras utilizaba menos recursos computacionales, demostrando su efectividad para la adaptación que ahorra recursos. El trabajo de investigación enfatiza la promesa de la Adaptación de Bajo Rango como una estrategia de ajuste fino ligera y escalable para grandes modelos de voz utilizando una arquitectura de transformador. El modelo base Whisper Small alcanzó una tasa de error de palabras del 16.7% sin ninguna adaptación eficiente en parámetros. En contraste, el modelo ajustado finamente mejorado por la Adaptación de Bajo Rango logró una tasa de error de palabras más baja del 6.08%, demostrando la adaptabilidad del enfoque propuesto eficiente en parámetros.
Descripción
Whisper es un modelo multilingüe basado en transformadores que ha demostrado un comportamiento de vanguardia en numerosos idiomas. Sin embargo, la eficiencia sigue siendo un problema con los recursos computacionales limitados. Para abordar este problema, se realizó un experimento en librispeech-train-clean-100 con fines de entrenamiento. Se utilizó el conjunto test-clean para evaluar su rendimiento. Para mejorar la eficiencia y satisfacer las necesidades computacionales, se empleó una técnica de ajuste fino eficiente en parámetros, es decir, Adaptación de Bajo Rango, para agregar un número limitado de parámetros entrenables en las capas congeladas del modelo. Los resultados mostraron que la Adaptación de Bajo Rango logró excelentes resultados en Reconocimiento Automático de Voz mientras utilizaba menos recursos computacionales, demostrando su efectividad para la adaptación que ahorra recursos. El trabajo de investigación enfatiza la promesa de la Adaptación de Bajo Rango como una estrategia de ajuste fino ligera y escalable para grandes modelos de voz utilizando una arquitectura de transformador. El modelo base Whisper Small alcanzó una tasa de error de palabras del 16.7% sin ninguna adaptación eficiente en parámetros. En contraste, el modelo ajustado finamente mejorado por la Adaptación de Bajo Rango logró una tasa de error de palabras más baja del 6.08%, demostrando la adaptabilidad del enfoque propuesto eficiente en parámetros.