Adaptando un modelo pre-entrenado de aprendizaje auto-supervisado para reconocimiento de voz con adaptadores ligeros
Autores: Yue, Xianghu; Gao, Xiaoxue; Qian, Xinyuan; Li, Haizhou
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Adaptando un modelo pre-entrenado de aprendizaje auto-supervisado para reconocimiento de voz con adaptadores ligeros
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje auto-supervisado
Modelo SSL
Reconocimiento automático del habla
Sistema ASR
Arquitectura de red
Ajuste fino basado en adaptadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El aprendizaje auto-supervisado (SSL) es una forma efectiva de aprender representaciones de habla ricas y transferibles a partir de datos no etiquetados para beneficiar tareas posteriores. Sin embargo, incorporar de manera efectiva un modelo SSL pre-entrenado en un sistema de reconocimiento automático de habla (ASR) sigue siendo un desafío. En este documento, proponemos una arquitectura de red con adaptadores livianos para adaptar un modelo SSL pre-entrenado para un ASR de extremo a extremo (E2E). Se introduce un adaptador en cada capa de red SSL y se entrena en la tarea ASR posterior, mientras que los parámetros de las capas de red SSL pre-entrenadas permanecen sin cambios. Al llevar todos los parámetros pre-entrenados, evitamos el problema del olvido catastrófico. Al mismo tiempo, permitimos que la red se adapte rápidamente a la tarea ASR con adaptadores livianos. Los experimentos utilizando los conjuntos de datos de LibriSpeech y Wall Street Journal (WSJ) muestran que (1) el ajuste fino basado en adaptadores propuesto supera consistentemente al entrenamiento completo en escenarios de recursos limitados, con una reducción de hasta el 17.5%/12.2% en la tasa de error de palabras (WER) relativa en la división de 10 minutos de LibriSpeech; (2) la adaptación basada en adaptadores también muestra un rendimiento competitivo en escenarios de recursos altos, lo que valida aún más la efectividad de los adaptadores.
Descripción
El aprendizaje auto-supervisado (SSL) es una forma efectiva de aprender representaciones de habla ricas y transferibles a partir de datos no etiquetados para beneficiar tareas posteriores. Sin embargo, incorporar de manera efectiva un modelo SSL pre-entrenado en un sistema de reconocimiento automático de habla (ASR) sigue siendo un desafío. En este documento, proponemos una arquitectura de red con adaptadores livianos para adaptar un modelo SSL pre-entrenado para un ASR de extremo a extremo (E2E). Se introduce un adaptador en cada capa de red SSL y se entrena en la tarea ASR posterior, mientras que los parámetros de las capas de red SSL pre-entrenadas permanecen sin cambios. Al llevar todos los parámetros pre-entrenados, evitamos el problema del olvido catastrófico. Al mismo tiempo, permitimos que la red se adapte rápidamente a la tarea ASR con adaptadores livianos. Los experimentos utilizando los conjuntos de datos de LibriSpeech y Wall Street Journal (WSJ) muestran que (1) el ajuste fino basado en adaptadores propuesto supera consistentemente al entrenamiento completo en escenarios de recursos limitados, con una reducción de hasta el 17.5%/12.2% en la tasa de error de palabras (WER) relativa en la división de 10 minutos de LibriSpeech; (2) la adaptación basada en adaptadores también muestra un rendimiento competitivo en escenarios de recursos altos, lo que valida aún más la efectividad de los adaptadores.