Aplicación de fusión de varios métodos de análisis de discurso espontáneo para mejorar la diarización basada en redes neuronales de campo lejano

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aplicación de fusión de varios métodos de análisis de discurso espontáneo para mejorar la diarización basada en redes neuronales de campo lejano

Autores: Astapov, Sergei; Gusev, Aleksei; Volkova, Marina; Logunov, Aleksei; Zaluskaia, Valeriia; Kapranova, Vlada; Timofeeva, Elena; Evseeva, Elena; Kabarov, Vladimir; Matveev, Yuri

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Aplicación de fusión de varios métodos de análisis de discurso espontáneo para mejorar la diarización basada en redes neuronales de campo lejano

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Métodos

Diarización

Análisis del habla

Separación de altavoces

Redes neuronales

Evaluación de calidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

Los métodos recientemente desarrollados en análisis de habla espontánea requieren el uso de separación de locutores basada en datos de audio, conocida como diarización. Se aplica a casos de uso generalizados, como transcripción de reuniones basada en grabaciones de micrófonos distantes y la extracción de perfiles de voz del locutor objetivo de audio ruidoso. Sin embargo, el reconocimiento y análisis del habla pueden ser obstaculizados por ruido de fondo, ruido de fuente puntual, habla superpuesta y reverberación, que afectan la calidad de la diarización en conjunto. Para compensar el impacto de estos factores, existen una variedad de métodos de análisis de habla de apoyo, como evaluaciones de calidad en términos de SNR y métricas de tiempo de reverberación RT60, detección de habla superpuesta, estimación instantánea del número de locutores, etc. Las mejoras en los métodos de verificación de locutores tienen beneficios en el área de separación de locutores también. Este documento introduce varios enfoques destinados a mejorar la calidad del sistema de diarización. Los resultados experimentales presentados demuestran la posibilidad de refinar las etiquetas iniciales de locutores a partir de datos de VAD basados en redes neuronales mediante la fusión con etiquetas de modelos de estimación de calidad, detectores de habla superpuesta y modelos de estimación del número de locutores, que contienen módulos CNN y LSTM. Tales enfoques de fusión nos permiten disminuir significativamente los valores de DER en comparación con los métodos VAD independientes. Se utilizan casos de etiquetado de VAD ideales para mostrar el impacto positivo de las redes neuronales ResNet-101 en la calidad de la diarización en comparación con arquitecturas básicas de x-vectors y ECAPA-TDNN entrenadas en datos de 8 kHz. Además, este documento destaca la ventaja del agrupamiento espectral sobre otros métodos de agrupamiento aplicados a la diarización. La calidad general de la diarización se mejora en todas las etapas del proceso, y la combinación de varios métodos de análisis de habla contribuye significativamente a la mejora de la calidad de la diarización.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro