logo móvil
Contáctanos

Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos

Autores: Li, Yiqun; Zhou, Ya; Qiu, Zan; Wang, Yabing; Wang, Jiahao; Huang, Guimin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento automático del habla
Modelos acústicos
Mecanismo de atención multi-cabeza
Redes neuronales con retardos temporales
Modelo de lenguaje de red neuronal recurrente
Tasas de error de palabras

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
La tecnología de reconocimiento automático del habla (ASR) ha alcanzado un nivel maduro y mejorar el rendimiento en escenarios con escasez de datos se ha convertido en un enfoque de investigación clave. En este estudio, proponemos un enfoque novedoso para construir modelos acústicos aprovechando el mecanismo de atención multi-cabeza para mejorar diversas características acústicas extraídas de datos de audio, combinadas con redes neuronales de retardo temporal (TDNNs) utilizando factorización de matriz de rango bajo semi-ortogonal, lo que resulta en mejoras significativas en el rendimiento. Para aumentar la robustez del modelo acústico, introducimos una pequeña cantidad de perturbación de datos durante las primeras etapas de entrenamiento. Además, durante la fase de decodificación, empleamos un modelo de lenguaje de red neuronal recurrente externo (RNNLM) para el rescoring, mejorando aún más la precisión del modelo. Una evaluación exhaustiva del corpus LibriSpeech ampliamente utilizado muestra que nuestro método, utilizando solo la mitad de los datos de entrenamiento, logra tasas de error de palabra (WERs) de 3.15 y 7.04 en los conjuntos de datos test_clean y test_other, respectivamente. Estos resultados superan a los modelos con arquitecturas similares entrenados en el conjunto de datos completo y demuestran un rendimiento comparable a los modelos de extremo a extremo más populares.

Otros recursos que podrían interesarte

Temas Virtualpro