Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real

Autores: Zhang, Yiru; Liu, Bijing; Yang, Yong; Yang, Qun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Atención Cruzada con Puertas para Extracción Universal de Oradores: Hacia Aplicaciones del Mundo Real

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Extracción de hablante objetivo

Modelos TSE

Habla de varios interlocutores

Extracción de hablante universal

Red de atención cruzada con compuertas

Función de pérdida conjunta

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Los modelos de extracción de hablante objetivo actualmente han logrado un buen rendimiento en la separación de la voz objetivo de la voz de varios hablantes altamente superpuesta. Sin embargo, en aplicaciones del mundo real, la voz de varios hablantes a menudo está escasamente superpuesta, y el hablante objetivo puede estar ausente de la mezcla de voz, lo que dificulta que el modelo extraiga la voz deseada en tales situaciones. Para optimizar los modelos para varios escenarios, se ha propuesto la extracción de hablantes universales. Sin embargo, los modelos actuales no distinguen entre la presencia o ausencia del hablante objetivo, lo que resulta en un rendimiento subóptimo. En este documento, proponemos una red de atención cruzada con compuertas para la extracción de hablantes universales. En nuestro modelo, el mecanismo de atención cruzada aprende la correlación entre el hablante objetivo y la voz para determinar si el hablante objetivo está presente. Basándose en esta correlación, el mecanismo de compuerta permite que el modelo se centre en extraer la voz cuando el objetivo está presente y filtre las características cuando el objetivo está ausente. Además, proponemos una función de pérdida conjunta para evaluar tanto la voz objetivo reconstruida como el silencio. Los experimentos en los conjuntos de datos WSJ0-2mix-extr y LibriMix muestran que nuestro método propuesto logra un rendimiento superior sobre enfoques de comparación en términos de SI-SDR y WER.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro