Un estudio preliminar de extracción de características de voz robusta basado en maximizar la probabilidad de estados en modelos acústicos profundos
Autores: Chang, Li-Chia; Hung, Jeih-Weih
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un estudio preliminar de extracción de características de voz robusta basado en maximizar la probabilidad de estados en modelos acústicos profundos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Nueva técnica
Extracción de características del habla
Entornos ruidosos
Red neuronal profunda
Métodos de robustez
Modelos acústicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Este estudio propone una nueva técnica robusta de extracción de características del habla para mejorar el rendimiento del reconocimiento del habla en entornos ruidosos. Este método novedoso explota la información proporcionada por el modelo acústico original en el sistema de reconocimiento automático del habla (ASR) para aprender una red neuronal profunda que convierte las características del habla originales. Esta red neuronal profunda se entrena para maximizar la precisión posterior de las secuencias de estados de los modelos acústicos con respecto a las secuencias de características del habla. En comparación con los métodos de robustez que vuelven a entrenar o adaptan los modelos acústicos, el nuevo método tiene las ventajas de una carga computacional menor y un entrenamiento más rápido. En los experimentos realizados en la base de datos y tarea de vocabulario medio TIMIT, el método presentado proporciona tasas de error de palabras más bajas que la línea de base sin procesar y las técnicas basadas en mejora del habla. Estos resultados indican que el método presentado es prometedor y vale la pena desarrollar aún más.
Descripción
Este estudio propone una nueva técnica robusta de extracción de características del habla para mejorar el rendimiento del reconocimiento del habla en entornos ruidosos. Este método novedoso explota la información proporcionada por el modelo acústico original en el sistema de reconocimiento automático del habla (ASR) para aprender una red neuronal profunda que convierte las características del habla originales. Esta red neuronal profunda se entrena para maximizar la precisión posterior de las secuencias de estados de los modelos acústicos con respecto a las secuencias de características del habla. En comparación con los métodos de robustez que vuelven a entrenar o adaptan los modelos acústicos, el nuevo método tiene las ventajas de una carga computacional menor y un entrenamiento más rápido. En los experimentos realizados en la base de datos y tarea de vocabulario medio TIMIT, el método presentado proporciona tasas de error de palabras más bajas que la línea de base sin procesar y las técnicas basadas en mejora del habla. Estos resultados indican que el método presentado es prometedor y vale la pena desarrollar aún más.