logo móvil
Contáctanos

Aplicación de fusión de varios métodos de análisis de discurso espontáneo para mejorar la diarización basada en redes neuronales de campo lejano

Autores: Astapov, Sergei; Gusev, Aleksei; Volkova, Marina; Logunov, Aleksei; Zaluskaia, Valeriia; Kapranova, Vlada; Timofeeva, Elena; Evseeva, Elena; Kabarov, Vladimir; Matveev, Yuri

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Aplicación de fusión de varios métodos de análisis de discurso espontáneo para mejorar la diarización basada en redes neuronales de campo lejano


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Métodos
Diarización
Análisis del habla
Separación de altavoces
Redes neuronales
Evaluación de calidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Los métodos recientemente desarrollados en análisis de habla espontánea requieren el uso de separación de locutores basada en datos de audio, conocida como diarización. Se aplica a casos de uso generalizados, como transcripción de reuniones basada en grabaciones de micrófonos distantes y la extracción de perfiles de voz del locutor objetivo de audio ruidoso. Sin embargo, el reconocimiento y análisis del habla pueden ser obstaculizados por ruido de fondo, ruido de fuente puntual, habla superpuesta y reverberación, que afectan la calidad de la diarización en conjunto. Para compensar el impacto de estos factores, existen una variedad de métodos de análisis de habla de apoyo, como evaluaciones de calidad en términos de SNR y métricas de tiempo de reverberación RT60, detección de habla superpuesta, estimación instantánea del número de locutores, etc. Las mejoras en los métodos de verificación de locutores tienen beneficios en el área de separación de locutores también. Este documento introduce varios enfoques destinados a mejorar la calidad del sistema de diarización. Los resultados experimentales presentados demuestran la posibilidad de refinar las etiquetas iniciales de locutores a partir de datos de VAD basados en redes neuronales mediante la fusión con etiquetas de modelos de estimación de calidad, detectores de habla superpuesta y modelos de estimación del número de locutores, que contienen módulos CNN y LSTM. Tales enfoques de fusión nos permiten disminuir significativamente los valores de DER en comparación con los métodos VAD independientes. Se utilizan casos de etiquetado de VAD ideales para mostrar el impacto positivo de las redes neuronales ResNet-101 en la calidad de la diarización en comparación con arquitecturas básicas de x-vectors y ECAPA-TDNN entrenadas en datos de 8 kHz. Además, este documento destaca la ventaja del agrupamiento espectral sobre otros métodos de agrupamiento aplicados a la diarización. La calidad general de la diarización se mejora en todas las etapas del proceso, y la combinación de varios métodos de análisis de habla contribuye significativamente a la mejora de la calidad de la diarización.

Otros recursos que podrían interesarte

Temas Virtualpro