Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real
Autores: Zhang, Yiru; Liu, Bijing; Yang, Yong; Yang, Qun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Extracción de hablante objetivo
Modelos TSE
Habla de varios interlocutores
Extracción de hablante universal
Red de atención cruzada con compuertas
Función de pérdida conjunta
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Los modelos de extracción de hablante objetivo actualmente han logrado un buen rendimiento en la separación de la voz objetivo de la voz de varios hablantes altamente superpuesta. Sin embargo, en aplicaciones del mundo real, la voz de varios hablantes a menudo está escasamente superpuesta, y el hablante objetivo puede estar ausente de la mezcla de voz, lo que dificulta que el modelo extraiga la voz deseada en tales situaciones. Para optimizar los modelos para varios escenarios, se ha propuesto la extracción de hablantes universales. Sin embargo, los modelos actuales no distinguen entre la presencia o ausencia del hablante objetivo, lo que resulta en un rendimiento subóptimo. En este documento, proponemos una red de atención cruzada con compuertas para la extracción de hablantes universales. En nuestro modelo, el mecanismo de atención cruzada aprende la correlación entre el hablante objetivo y la voz para determinar si el hablante objetivo está presente. Basándose en esta correlación, el mecanismo de compuerta permite que el modelo se centre en extraer la voz cuando el objetivo está presente y filtre las características cuando el objetivo está ausente. Además, proponemos una función de pérdida conjunta para evaluar tanto la voz objetivo reconstruida como el silencio. Los experimentos en los conjuntos de datos WSJ0-2mix-extr y LibriMix muestran que nuestro método propuesto logra un rendimiento superior sobre enfoques de comparación en términos de SI-SDR y WER.
Descripción
Los modelos de extracción de hablante objetivo actualmente han logrado un buen rendimiento en la separación de la voz objetivo de la voz de varios hablantes altamente superpuesta. Sin embargo, en aplicaciones del mundo real, la voz de varios hablantes a menudo está escasamente superpuesta, y el hablante objetivo puede estar ausente de la mezcla de voz, lo que dificulta que el modelo extraiga la voz deseada en tales situaciones. Para optimizar los modelos para varios escenarios, se ha propuesto la extracción de hablantes universales. Sin embargo, los modelos actuales no distinguen entre la presencia o ausencia del hablante objetivo, lo que resulta en un rendimiento subóptimo. En este documento, proponemos una red de atención cruzada con compuertas para la extracción de hablantes universales. En nuestro modelo, el mecanismo de atención cruzada aprende la correlación entre el hablante objetivo y la voz para determinar si el hablante objetivo está presente. Basándose en esta correlación, el mecanismo de compuerta permite que el modelo se centre en extraer la voz cuando el objetivo está presente y filtre las características cuando el objetivo está ausente. Además, proponemos una función de pérdida conjunta para evaluar tanto la voz objetivo reconstruida como el silencio. Los experimentos en los conjuntos de datos WSJ0-2mix-extr y LibriMix muestran que nuestro método propuesto logra un rendimiento superior sobre enfoques de comparación en términos de SI-SDR y WER.