Algoritmo de mejora de la percepción del habla basado en una red de memoria a largo plazo de doble vía
Autores: Koh, Hyeong Il; Na, Sungdae; Kim, Myoung Nam
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Algoritmo de mejora de la percepción del habla basado en una red de memoria a largo plazo de doble vía
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Aprendizaje profundo
Mejora del habla
Representación tiempo-frecuencia
Estructura de doble vía
Red LSTM
Detalles espectrales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Los métodos actuales de mejora del habla basados en aprendizaje profundo se centran en mejorar la representación tiempo-frecuencia de la señal. Sin embargo, los métodos convencionales pueden provocar daños en el habla debido a problemas de desajuste de resolución que enfatizan solo información específica en el dominio del tiempo o la frecuencia. Para abordar estos desafíos, este artículo presenta un modelo de mejora del habla diseñado con una estructura de doble ruta que identifica características clave del habla tanto en el dominio del tiempo como en el tiempo-frecuencia. Específicamente, la ruta de tiempo tiene como objetivo modelar características semánticas ocultas en la forma de onda, mientras que la ruta tiempo-frecuencia intenta compensar los detalles espectrales a través de un bloque de extensión espectral. Estas dos rutas mejoran las características temporales y espectrales a través de funciones de máscara modeladas como LSTM, respectivamente, ofreciendo un enfoque integral para la mejora del habla. Los resultados experimentales muestran que la red LSTM de doble ruta propuesta supera consistentemente a los métodos convencionales de mejora del habla de un solo dominio en cuanto a calidad e inteligibilidad del habla.
Descripción
Los métodos actuales de mejora del habla basados en aprendizaje profundo se centran en mejorar la representación tiempo-frecuencia de la señal. Sin embargo, los métodos convencionales pueden provocar daños en el habla debido a problemas de desajuste de resolución que enfatizan solo información específica en el dominio del tiempo o la frecuencia. Para abordar estos desafíos, este artículo presenta un modelo de mejora del habla diseñado con una estructura de doble ruta que identifica características clave del habla tanto en el dominio del tiempo como en el tiempo-frecuencia. Específicamente, la ruta de tiempo tiene como objetivo modelar características semánticas ocultas en la forma de onda, mientras que la ruta tiempo-frecuencia intenta compensar los detalles espectrales a través de un bloque de extensión espectral. Estas dos rutas mejoran las características temporales y espectrales a través de funciones de máscara modeladas como LSTM, respectivamente, ofreciendo un enfoque integral para la mejora del habla. Los resultados experimentales muestran que la red LSTM de doble ruta propuesta supera consistentemente a los métodos convencionales de mejora del habla de un solo dominio en cuanto a calidad e inteligibilidad del habla.