logo móvil
Contáctanos

Características de Codificación Auditiva Temporal para Mejora de Habla Causal

Autores: Thoidis, Iordanis; Vrysis, Lazaros; Markou, Dimitrios; Papanikolaou, George

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Características de Codificación Auditiva Temporal para Mejora de Habla Causal


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Procesamiento de señales
Extracción de características
Redes neuronales
Mejora del habla
Características motivadas auditivamente
Aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
El procesamiento de señales de audio motivado perceptualmente y la extracción de características han desempeñado un papel clave en la determinación de procesos semánticos de alto nivel y en el desarrollo de sistemas y aplicaciones emergentes, como la telecomunicación de teléfonos móviles y audífonos. En la era del aprendizaje profundo, los métodos de mejora del habla basados en redes neuronales han tenido un gran éxito, operando principalmente en los espectros de potencia logarítmica. Aunque estos enfoques superan la necesidad de una extracción y selección exhaustivas de características, aún no está claro si se dirigen a las características sonoras importantes relacionadas con la percepción del habla. En este estudio, proponemos un nuevo conjunto de características motivadas auditivamente para la mejora del habla de un solo canal fusionando la envolvente temporal y la información de estructura fina temporal en el contexto de un procesamiento similar a un vocoder. Se emplea una red neuronal de unidad recurrente cerrada (GRU) causal para recuperar las modulaciones de amplitud de baja frecuencia del habla. Los resultados experimentales indican que el sistema explotado logra ganancias considerable para oyentes con audición normal y con discapacidad auditiva, en términos de inteligibilidad objetiva y métricas de calidad. El conjunto de características motivadas auditivamente propuesto obtuvo mejores resultados de inteligibilidad objetiva en comparación con las características convencionales del espectrograma de magnitud logarítmica, mientras que se observaron resultados mixtos para oyentes simulados con pérdida de audición. Finalmente, demostramos que el marco de análisis/síntesis propuesto proporciona una precisión de reconstrucción satisfactoria de las señales de habla.

Otros recursos que podrían interesarte

Temas Virtualpro