Adaptando un modelo pre-entrenado de aprendizaje auto-supervisado para reconocimiento de voz con adaptadores ligeros

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Adaptando un modelo pre-entrenado de aprendizaje auto-supervisado para reconocimiento de voz con adaptadores ligeros

Autores: Yue, Xianghu; Gao, Xiaoxue; Qian, Xinyuan; Li, Haizhou

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Adaptando un modelo pre-entrenado de aprendizaje auto-supervisado para reconocimiento de voz con adaptadores ligeros

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje auto-supervisado

Modelo SSL

Reconocimiento automático del habla

Sistema ASR

Arquitectura de red

Ajuste fino basado en adaptadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

El aprendizaje auto-supervisado (SSL) es una forma efectiva de aprender representaciones de habla ricas y transferibles a partir de datos no etiquetados para beneficiar tareas posteriores. Sin embargo, incorporar de manera efectiva un modelo SSL pre-entrenado en un sistema de reconocimiento automático de habla (ASR) sigue siendo un desafío. En este documento, proponemos una arquitectura de red con adaptadores livianos para adaptar un modelo SSL pre-entrenado para un ASR de extremo a extremo (E2E). Se introduce un adaptador en cada capa de red SSL y se entrena en la tarea ASR posterior, mientras que los parámetros de las capas de red SSL pre-entrenadas permanecen sin cambios. Al llevar todos los parámetros pre-entrenados, evitamos el problema del olvido catastrófico. Al mismo tiempo, permitimos que la red se adapte rápidamente a la tarea ASR con adaptadores livianos. Los experimentos utilizando los conjuntos de datos de LibriSpeech y Wall Street Journal (WSJ) muestran que (1) el ajuste fino basado en adaptadores propuesto supera consistentemente al entrenamiento completo en escenarios de recursos limitados, con una reducción de hasta el 17.5%/12.2% en la tasa de error de palabras (WER) relativa en la división de 10 minutos de LibriSpeech; (2) la adaptación basada en adaptadores también muestra un rendimiento competitivo en escenarios de recursos altos, lo que valida aún más la efectividad de los adaptadores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro