Características de Codificación Auditiva Temporal para Mejora de Habla Causal
Autores: Thoidis, Iordanis; Vrysis, Lazaros; Markou, Dimitrios; Papanikolaou, George
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Características de Codificación Auditiva Temporal para Mejora de Habla Causal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Procesamiento de señales
Extracción de características
Redes neuronales
Mejora del habla
Características motivadas auditivamente
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
El procesamiento de señales de audio motivado perceptualmente y la extracción de características han desempeñado un papel clave en la determinación de procesos semánticos de alto nivel y en el desarrollo de sistemas y aplicaciones emergentes, como la telecomunicación de teléfonos móviles y audífonos. En la era del aprendizaje profundo, los métodos de mejora del habla basados en redes neuronales han tenido un gran éxito, operando principalmente en los espectros de potencia logarítmica. Aunque estos enfoques superan la necesidad de una extracción y selección exhaustivas de características, aún no está claro si se dirigen a las características sonoras importantes relacionadas con la percepción del habla. En este estudio, proponemos un nuevo conjunto de características motivadas auditivamente para la mejora del habla de un solo canal fusionando la envolvente temporal y la información de estructura fina temporal en el contexto de un procesamiento similar a un vocoder. Se emplea una red neuronal de unidad recurrente cerrada (GRU) causal para recuperar las modulaciones de amplitud de baja frecuencia del habla. Los resultados experimentales indican que el sistema explotado logra ganancias considerable para oyentes con audición normal y con discapacidad auditiva, en términos de inteligibilidad objetiva y métricas de calidad. El conjunto de características motivadas auditivamente propuesto obtuvo mejores resultados de inteligibilidad objetiva en comparación con las características convencionales del espectrograma de magnitud logarítmica, mientras que se observaron resultados mixtos para oyentes simulados con pérdida de audición. Finalmente, demostramos que el marco de análisis/síntesis propuesto proporciona una precisión de reconstrucción satisfactoria de las señales de habla.
Descripción
El procesamiento de señales de audio motivado perceptualmente y la extracción de características han desempeñado un papel clave en la determinación de procesos semánticos de alto nivel y en el desarrollo de sistemas y aplicaciones emergentes, como la telecomunicación de teléfonos móviles y audífonos. En la era del aprendizaje profundo, los métodos de mejora del habla basados en redes neuronales han tenido un gran éxito, operando principalmente en los espectros de potencia logarítmica. Aunque estos enfoques superan la necesidad de una extracción y selección exhaustivas de características, aún no está claro si se dirigen a las características sonoras importantes relacionadas con la percepción del habla. En este estudio, proponemos un nuevo conjunto de características motivadas auditivamente para la mejora del habla de un solo canal fusionando la envolvente temporal y la información de estructura fina temporal en el contexto de un procesamiento similar a un vocoder. Se emplea una red neuronal de unidad recurrente cerrada (GRU) causal para recuperar las modulaciones de amplitud de baja frecuencia del habla. Los resultados experimentales indican que el sistema explotado logra ganancias considerable para oyentes con audición normal y con discapacidad auditiva, en términos de inteligibilidad objetiva y métricas de calidad. El conjunto de características motivadas auditivamente propuesto obtuvo mejores resultados de inteligibilidad objetiva en comparación con las características convencionales del espectrograma de magnitud logarítmica, mientras que se observaron resultados mixtos para oyentes simulados con pérdida de audición. Finalmente, demostramos que el marco de análisis/síntesis propuesto proporciona una precisión de reconstrucción satisfactoria de las señales de habla.