Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único
Autores: Chen, Peng; Nguyen, Binh Thien; Iwai, Kenta; Nishiura, Takanobu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Tiempo-frecuencia
Máscara
IBM
IRM
Máscara ideal basada en umbrales
Separación de voz
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Un enfoque efectivo para abordar el problema de separación de voz es utilizar una máscara en el dominio tiempo-frecuencia (T-F). La máscara binaria ideal (IBM) y la máscara de relación ideal (IRM) han sido ampliamente utilizadas para separar señales de voz. Sin embargo, la IBM es mejor para mejorar la inteligibilidad del habla, mientras que la IRM es mejor para mejorar la calidad del habla. Para aprovechar sus respectivas fortalezas y superar debilidades, proponemos una máscara ideal basada en umbrales (ITM) para combinar estas dos máscaras. Al ajustar dos umbrales, estas dos máscaras se combinan para actuar conjuntamente en la separación de voz. Listamos el impacto de usar diferentes combinaciones de umbrales en el rendimiento de separación de voz en condiciones ideales y discutimos un rango razonable para afinar los umbrales. Al usar máscaras como objetivo de entrenamiento, para evaluar la efectividad del método propuesto, realizamos experimentos de separación de voz supervisados aplicando una red neuronal profunda (DNN) y memoria a largo y corto plazo (LSTM), cuyos resultados fueron medidos por tres indicadores objetivos: la relación señal-distorsión (SDR), la relación señal-interferencia (SIR) y la mejora de la relación señal-artifacto (SAR). Los resultados experimentales muestran que la máscara propuesta combina las fortalezas de la IBM y la IRM e implica que la precisión de la separación de voz puede potencialmente mejorarse aún más aprovechando efectivamente las ventajas de diferentes máscaras.
Descripción
Un enfoque efectivo para abordar el problema de separación de voz es utilizar una máscara en el dominio tiempo-frecuencia (T-F). La máscara binaria ideal (IBM) y la máscara de relación ideal (IRM) han sido ampliamente utilizadas para separar señales de voz. Sin embargo, la IBM es mejor para mejorar la inteligibilidad del habla, mientras que la IRM es mejor para mejorar la calidad del habla. Para aprovechar sus respectivas fortalezas y superar debilidades, proponemos una máscara ideal basada en umbrales (ITM) para combinar estas dos máscaras. Al ajustar dos umbrales, estas dos máscaras se combinan para actuar conjuntamente en la separación de voz. Listamos el impacto de usar diferentes combinaciones de umbrales en el rendimiento de separación de voz en condiciones ideales y discutimos un rango razonable para afinar los umbrales. Al usar máscaras como objetivo de entrenamiento, para evaluar la efectividad del método propuesto, realizamos experimentos de separación de voz supervisados aplicando una red neuronal profunda (DNN) y memoria a largo y corto plazo (LSTM), cuyos resultados fueron medidos por tres indicadores objetivos: la relación señal-distorsión (SDR), la relación señal-interferencia (SIR) y la mejora de la relación señal-artifacto (SAR). Los resultados experimentales muestran que la máscara propuesta combina las fortalezas de la IBM y la IRM e implica que la precisión de la separación de voz puede potencialmente mejorarse aún más aprovechando efectivamente las ventajas de diferentes máscaras.