logo móvil
Contáctanos

Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único

Autores: Chen, Peng; Nguyen, Binh Thien; Iwai, Kenta; Nishiura, Takanobu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Tiempo-frecuencia
Máscara
IBM
IRM
Máscara ideal basada en umbrales
Separación de voz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Un enfoque efectivo para abordar el problema de separación de voz es utilizar una máscara en el dominio tiempo-frecuencia (T-F). La máscara binaria ideal (IBM) y la máscara de relación ideal (IRM) han sido ampliamente utilizadas para separar señales de voz. Sin embargo, la IBM es mejor para mejorar la inteligibilidad del habla, mientras que la IRM es mejor para mejorar la calidad del habla. Para aprovechar sus respectivas fortalezas y superar debilidades, proponemos una máscara ideal basada en umbrales (ITM) para combinar estas dos máscaras. Al ajustar dos umbrales, estas dos máscaras se combinan para actuar conjuntamente en la separación de voz. Listamos el impacto de usar diferentes combinaciones de umbrales en el rendimiento de separación de voz en condiciones ideales y discutimos un rango razonable para afinar los umbrales. Al usar máscaras como objetivo de entrenamiento, para evaluar la efectividad del método propuesto, realizamos experimentos de separación de voz supervisados aplicando una red neuronal profunda (DNN) y memoria a largo y corto plazo (LSTM), cuyos resultados fueron medidos por tres indicadores objetivos: la relación señal-distorsión (SDR), la relación señal-interferencia (SIR) y la mejora de la relación señal-artifacto (SAR). Los resultados experimentales muestran que la máscara propuesta combina las fortalezas de la IBM y la IRM e implica que la precisión de la separación de voz puede potencialmente mejorarse aún más aprovechando efectivamente las ventajas de diferentes máscaras.

Otros recursos que podrían interesarte

Temas Virtualpro