logo móvil
Contáctanos

Reconocimiento de voz basado en la función de pérdida conjunta

Autores: Feng, Tengteng; Fan, Houbin; Ge, Fengpei; Cao, Shuxin; Liang, Chunyan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Reconocimiento de voz basado en la función de pérdida conjunta


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Red neuronal densa de tiempo con retraso estadístico
Desequilibrio
Sobreajuste
Capacidad de generalización
Función de pérdida conjunta
Reconocimiento de locutor

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
El modelo de red neuronal denso de retardo temporal piramidal estadístico (SPD-TDNN) dificulta el manejo del desequilibrio de los datos de entrenamiento, presenta un alto riesgo de sobreajuste y tiene una débil capacidad de generalización. Para resolver estos problemas, proponemos un método basado en la función de pérdida conjunta y en el modelo de red neuronal denso de retardo temporal piramidal estadístico mejorado (JLF-ISPD-TDNN), que mejora el modelo SPD-TDNN y utiliza el método de función de pérdida conjunta para combinar las ventajas de la función de pérdida de entropía cruzada y el aprendizaje comparativo de la función de pérdida. Al minimizar la distancia entre las incrustaciones de voz del mismo hablante y maximizar la distancia entre las incrustaciones de voz de diferentes hablantes, el modelo puede lograr un rendimiento de generalización mejorado y una representación de características de hablante más robusta. Evaluamos el rendimiento del método propuesto utilizando los índices de evaluación de la tasa de error igual (EER) y la función de costo mínimo (minDCF). Los resultados experimentales muestran que el EEE y minDCF en el conjunto de datos Aishell-1 alcanzaron el 1.02% y 0.1221%, respectivamente. Por lo tanto, el uso de la función de pérdida conjunta en el modelo mejorado de SPD-TDNN puede mejorar significativamente el rendimiento de reconocimiento de hablantes del modelo.

Otros recursos que podrían interesarte

Temas Virtualpro