Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único

Autores: Chen, Peng; Nguyen, Binh Thien; Iwai, Kenta; Nishiura, Takanobu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Combinación Basada en Umbrales de Máscara Binaria Ideal y Máscara de Relación Ideal para Separación de Habla de Canal Único

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Tiempo-frecuencia

Máscara

IBM

IRM

Máscara ideal basada en umbrales

Separación de voz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Un enfoque efectivo para abordar el problema de separación de voz es utilizar una máscara en el dominio tiempo-frecuencia (T-F). La máscara binaria ideal (IBM) y la máscara de relación ideal (IRM) han sido ampliamente utilizadas para separar señales de voz. Sin embargo, la IBM es mejor para mejorar la inteligibilidad del habla, mientras que la IRM es mejor para mejorar la calidad del habla. Para aprovechar sus respectivas fortalezas y superar debilidades, proponemos una máscara ideal basada en umbrales (ITM) para combinar estas dos máscaras. Al ajustar dos umbrales, estas dos máscaras se combinan para actuar conjuntamente en la separación de voz. Listamos el impacto de usar diferentes combinaciones de umbrales en el rendimiento de separación de voz en condiciones ideales y discutimos un rango razonable para afinar los umbrales. Al usar máscaras como objetivo de entrenamiento, para evaluar la efectividad del método propuesto, realizamos experimentos de separación de voz supervisados aplicando una red neuronal profunda (DNN) y memoria a largo y corto plazo (LSTM), cuyos resultados fueron medidos por tres indicadores objetivos: la relación señal-distorsión (SDR), la relación señal-interferencia (SIR) y la mejora de la relación señal-artifacto (SAR). Los resultados experimentales muestran que la máscara propuesta combina las fortalezas de la IBM y la IRM e implica que la precisión de la separación de voz puede potencialmente mejorarse aún más aprovechando efectivamente las ventajas de diferentes máscaras.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro