logo móvil
Contáctanos

Algoritmo de mejora de la percepción del habla basado en una red de memoria a largo plazo de doble vía

Autores: Koh, Hyeong Il; Na, Sungdae; Kim, Myoung Nam

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Algoritmo de mejora de la percepción del habla basado en una red de memoria a largo plazo de doble vía


Categoría

Ingeniería y Tecnología

Subcategoría

Bioingeniería

Palabras clave

Aprendizaje profundo
Mejora del habla
Representación tiempo-frecuencia
Estructura de doble vía
Red LSTM
Detalles espectrales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Los métodos actuales de mejora del habla basados en aprendizaje profundo se centran en mejorar la representación tiempo-frecuencia de la señal. Sin embargo, los métodos convencionales pueden provocar daños en el habla debido a problemas de desajuste de resolución que enfatizan solo información específica en el dominio del tiempo o la frecuencia. Para abordar estos desafíos, este artículo presenta un modelo de mejora del habla diseñado con una estructura de doble ruta que identifica características clave del habla tanto en el dominio del tiempo como en el tiempo-frecuencia. Específicamente, la ruta de tiempo tiene como objetivo modelar características semánticas ocultas en la forma de onda, mientras que la ruta tiempo-frecuencia intenta compensar los detalles espectrales a través de un bloque de extensión espectral. Estas dos rutas mejoran las características temporales y espectrales a través de funciones de máscara modeladas como LSTM, respectivamente, ofreciendo un enfoque integral para la mejora del habla. Los resultados experimentales muestran que la red LSTM de doble ruta propuesta supera consistentemente a los métodos convencionales de mejora del habla de un solo dominio en cuanto a calidad e inteligibilidad del habla.

Otros recursos que podrían interesarte

Temas Virtualpro