logo móvil
Contáctanos

Mejora del habla basada en la fusión de características y objetivos conscientes tanto de la magnitud como de la fase

Autores: Lang, Haitao; Yang, Jie

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Mejora del habla basada en la fusión de características y objetivos conscientes tanto de la magnitud como de la fase


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Métodos de aprendizaje supervisado
Basados en redes neuronales profundas
Mejora del habla de un solo canal
Características acústicas
Habla ruidosa
Objetivo con conciencia de fase

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
Recientemente, los métodos de aprendizaje supervisado han mostrado un rendimiento prometedor, especialmente los métodos basados en redes neuronales profundas (DNN), en la aplicación de mejora de la voz de un solo canal. En general, esos enfoques extraen las características acústicas directamente del habla ruidosa para entrenar un objetivo consciente de la magnitud. En este documento, proponemos extraer las características acústicas no solo del habla ruidosa, sino también del habla preestimada, del ruido y de la fase por separado, para luego fusionarlos en una nueva característica complementaria con el fin de obtener una representación acústica más discriminativa. Además, sobre la base de aprender un objetivo consciente de la magnitud, también utilizamos la característica de fusión para aprender un objetivo consciente de la fase, mejorando así aún más la precisión del habla recuperada. Realizamos experimentos extensos, incluida la comparación de rendimiento con algunos métodos existentes típicos, evaluación de la capacidad de generalización en ruido no visto, estudio de ablación y prueba subjetiva por oyentes humanos, para demostrar la viabilidad y efectividad del método propuesto. Los resultados experimentales demuestran que el método propuesto tiene la capacidad de mejorar la calidad y la inteligibilidad del habla reconstruida.

Otros recursos que podrían interesarte

Temas Virtualpro