Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos
Autores: Li, Yiqun; Zhou, Ya; Qiu, Zan; Wang, Yabing; Wang, Jiahao; Huang, Guimin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento automático del habla
Modelos acústicos
Mecanismo de atención multi-cabeza
Redes neuronales con retardos temporales
Modelo de lenguaje de red neuronal recurrente
Tasas de error de palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La tecnología de reconocimiento automático del habla (ASR) ha alcanzado un nivel maduro y mejorar el rendimiento en escenarios con escasez de datos se ha convertido en un enfoque de investigación clave. En este estudio, proponemos un enfoque novedoso para construir modelos acústicos aprovechando el mecanismo de atención multi-cabeza para mejorar diversas características acústicas extraídas de datos de audio, combinadas con redes neuronales de retardo temporal (TDNNs) utilizando factorización de matriz de rango bajo semi-ortogonal, lo que resulta en mejoras significativas en el rendimiento. Para aumentar la robustez del modelo acústico, introducimos una pequeña cantidad de perturbación de datos durante las primeras etapas de entrenamiento. Además, durante la fase de decodificación, empleamos un modelo de lenguaje de red neuronal recurrente externo (RNNLM) para el rescoring, mejorando aún más la precisión del modelo. Una evaluación exhaustiva del corpus LibriSpeech ampliamente utilizado muestra que nuestro método, utilizando solo la mitad de los datos de entrenamiento, logra tasas de error de palabra (WERs) de 3.15 y 7.04 en los conjuntos de datos test_clean y test_other, respectivamente. Estos resultados superan a los modelos con arquitecturas similares entrenados en el conjunto de datos completo y demuestran un rendimiento comparable a los modelos de extremo a extremo más populares.
Descripción
La tecnología de reconocimiento automático del habla (ASR) ha alcanzado un nivel maduro y mejorar el rendimiento en escenarios con escasez de datos se ha convertido en un enfoque de investigación clave. En este estudio, proponemos un enfoque novedoso para construir modelos acústicos aprovechando el mecanismo de atención multi-cabeza para mejorar diversas características acústicas extraídas de datos de audio, combinadas con redes neuronales de retardo temporal (TDNNs) utilizando factorización de matriz de rango bajo semi-ortogonal, lo que resulta en mejoras significativas en el rendimiento. Para aumentar la robustez del modelo acústico, introducimos una pequeña cantidad de perturbación de datos durante las primeras etapas de entrenamiento. Además, durante la fase de decodificación, empleamos un modelo de lenguaje de red neuronal recurrente externo (RNNLM) para el rescoring, mejorando aún más la precisión del modelo. Una evaluación exhaustiva del corpus LibriSpeech ampliamente utilizado muestra que nuestro método, utilizando solo la mitad de los datos de entrenamiento, logra tasas de error de palabra (WERs) de 3.15 y 7.04 en los conjuntos de datos test_clean y test_other, respectivamente. Estos resultados superan a los modelos con arquitecturas similares entrenados en el conjunto de datos completo y demuestran un rendimiento comparable a los modelos de extremo a extremo más populares.