Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos

Autores: Li, Yiqun; Zhou, Ya; Qiu, Zan; Wang, Yabing; Wang, Jiahao; Huang, Guimin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Atención multi-cabeza mejorada para reconocimiento de voz con requisitos de datos reducidos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento automático del habla

Modelos acústicos

Mecanismo de atención multi-cabeza

Redes neuronales con retardos temporales

Modelo de lenguaje de red neuronal recurrente

Tasas de error de palabras

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

La tecnología de reconocimiento automático del habla (ASR) ha alcanzado un nivel maduro y mejorar el rendimiento en escenarios con escasez de datos se ha convertido en un enfoque de investigación clave. En este estudio, proponemos un enfoque novedoso para construir modelos acústicos aprovechando el mecanismo de atención multi-cabeza para mejorar diversas características acústicas extraídas de datos de audio, combinadas con redes neuronales de retardo temporal (TDNNs) utilizando factorización de matriz de rango bajo semi-ortogonal, lo que resulta en mejoras significativas en el rendimiento. Para aumentar la robustez del modelo acústico, introducimos una pequeña cantidad de perturbación de datos durante las primeras etapas de entrenamiento. Además, durante la fase de decodificación, empleamos un modelo de lenguaje de red neuronal recurrente externo (RNNLM) para el rescoring, mejorando aún más la precisión del modelo. Una evaluación exhaustiva del corpus LibriSpeech ampliamente utilizado muestra que nuestro método, utilizando solo la mitad de los datos de entrenamiento, logra tasas de error de palabra (WERs) de 3.15 y 7.04 en los conjuntos de datos test_clean y test_other, respectivamente. Estos resultados superan a los modelos con arquitecturas similares entrenados en el conjunto de datos completo y demuestran un rendimiento comparable a los modelos de extremo a extremo más populares.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro