logo móvil
Contáctanos

Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real

Autores: Zhang, Yiru; Liu, Bijing; Yang, Yong; Yang, Qun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Extracción de hablante objetivo
Modelos TSE
Habla de varios interlocutores
Extracción de hablante universal
Red de atención cruzada con compuertas
Función de pérdida conjunta

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Los modelos de extracción de hablante objetivo actualmente han logrado un buen rendimiento en la separación de la voz objetivo de la voz de varios hablantes altamente superpuesta. Sin embargo, en aplicaciones del mundo real, la voz de varios hablantes a menudo está escasamente superpuesta, y el hablante objetivo puede estar ausente de la mezcla de voz, lo que dificulta que el modelo extraiga la voz deseada en tales situaciones. Para optimizar los modelos para varios escenarios, se ha propuesto la extracción de hablantes universales. Sin embargo, los modelos actuales no distinguen entre la presencia o ausencia del hablante objetivo, lo que resulta en un rendimiento subóptimo. En este documento, proponemos una red de atención cruzada con compuertas para la extracción de hablantes universales. En nuestro modelo, el mecanismo de atención cruzada aprende la correlación entre el hablante objetivo y la voz para determinar si el hablante objetivo está presente. Basándose en esta correlación, el mecanismo de compuerta permite que el modelo se centre en extraer la voz cuando el objetivo está presente y filtre las características cuando el objetivo está ausente. Además, proponemos una función de pérdida conjunta para evaluar tanto la voz objetivo reconstruida como el silencio. Los experimentos en los conjuntos de datos WSJ0-2mix-extr y LibriMix muestran que nuestro método propuesto logra un rendimiento superior sobre enfoques de comparación en términos de SI-SDR y WER.

Otros recursos que podrían interesarte

Temas Virtualpro