Mejora del habla basada en la fusión de características y objetivos conscientes tanto de la magnitud como de la fase
Autores: Lang, Haitao; Yang, Jie
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Mejora del habla basada en la fusión de características y objetivos conscientes tanto de la magnitud como de la fase
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Métodos de aprendizaje supervisado
Basados en redes neuronales profundas
Mejora del habla de un solo canal
Características acústicas
Habla ruidosa
Objetivo con conciencia de fase
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Recientemente, los métodos de aprendizaje supervisado han mostrado un rendimiento prometedor, especialmente los métodos basados en redes neuronales profundas (DNN), en la aplicación de mejora de la voz de un solo canal. En general, esos enfoques extraen las características acústicas directamente del habla ruidosa para entrenar un objetivo consciente de la magnitud. En este documento, proponemos extraer las características acústicas no solo del habla ruidosa, sino también del habla preestimada, del ruido y de la fase por separado, para luego fusionarlos en una nueva característica complementaria con el fin de obtener una representación acústica más discriminativa. Además, sobre la base de aprender un objetivo consciente de la magnitud, también utilizamos la característica de fusión para aprender un objetivo consciente de la fase, mejorando así aún más la precisión del habla recuperada. Realizamos experimentos extensos, incluida la comparación de rendimiento con algunos métodos existentes típicos, evaluación de la capacidad de generalización en ruido no visto, estudio de ablación y prueba subjetiva por oyentes humanos, para demostrar la viabilidad y efectividad del método propuesto. Los resultados experimentales demuestran que el método propuesto tiene la capacidad de mejorar la calidad y la inteligibilidad del habla reconstruida.
Descripción
Recientemente, los métodos de aprendizaje supervisado han mostrado un rendimiento prometedor, especialmente los métodos basados en redes neuronales profundas (DNN), en la aplicación de mejora de la voz de un solo canal. En general, esos enfoques extraen las características acústicas directamente del habla ruidosa para entrenar un objetivo consciente de la magnitud. En este documento, proponemos extraer las características acústicas no solo del habla ruidosa, sino también del habla preestimada, del ruido y de la fase por separado, para luego fusionarlos en una nueva característica complementaria con el fin de obtener una representación acústica más discriminativa. Además, sobre la base de aprender un objetivo consciente de la magnitud, también utilizamos la característica de fusión para aprender un objetivo consciente de la fase, mejorando así aún más la precisión del habla recuperada. Realizamos experimentos extensos, incluida la comparación de rendimiento con algunos métodos existentes típicos, evaluación de la capacidad de generalización en ruido no visto, estudio de ablación y prueba subjetiva por oyentes humanos, para demostrar la viabilidad y efectividad del método propuesto. Los resultados experimentales demuestran que el método propuesto tiene la capacidad de mejorar la calidad y la inteligibilidad del habla reconstruida.