Reconocimiento de voz basado en la función de pérdida conjunta
Autores: Feng, Tengteng; Fan, Houbin; Ge, Fengpei; Cao, Shuxin; Liang, Chunyan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de voz basado en la función de pérdida conjunta
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Red neuronal densa de tiempo con retraso estadístico
Desequilibrio
Sobreajuste
Capacidad de generalización
Función de pérdida conjunta
Reconocimiento de locutor
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
El modelo de red neuronal denso de retardo temporal piramidal estadístico (SPD-TDNN) dificulta el manejo del desequilibrio de los datos de entrenamiento, presenta un alto riesgo de sobreajuste y tiene una débil capacidad de generalización. Para resolver estos problemas, proponemos un método basado en la función de pérdida conjunta y en el modelo de red neuronal denso de retardo temporal piramidal estadístico mejorado (JLF-ISPD-TDNN), que mejora el modelo SPD-TDNN y utiliza el método de función de pérdida conjunta para combinar las ventajas de la función de pérdida de entropía cruzada y el aprendizaje comparativo de la función de pérdida. Al minimizar la distancia entre las incrustaciones de voz del mismo hablante y maximizar la distancia entre las incrustaciones de voz de diferentes hablantes, el modelo puede lograr un rendimiento de generalización mejorado y una representación de características de hablante más robusta. Evaluamos el rendimiento del método propuesto utilizando los índices de evaluación de la tasa de error igual (EER) y la función de costo mínimo (minDCF). Los resultados experimentales muestran que el EEE y minDCF en el conjunto de datos Aishell-1 alcanzaron el 1.02% y 0.1221%, respectivamente. Por lo tanto, el uso de la función de pérdida conjunta en el modelo mejorado de SPD-TDNN puede mejorar significativamente el rendimiento de reconocimiento de hablantes del modelo.
Descripción
El modelo de red neuronal denso de retardo temporal piramidal estadístico (SPD-TDNN) dificulta el manejo del desequilibrio de los datos de entrenamiento, presenta un alto riesgo de sobreajuste y tiene una débil capacidad de generalización. Para resolver estos problemas, proponemos un método basado en la función de pérdida conjunta y en el modelo de red neuronal denso de retardo temporal piramidal estadístico mejorado (JLF-ISPD-TDNN), que mejora el modelo SPD-TDNN y utiliza el método de función de pérdida conjunta para combinar las ventajas de la función de pérdida de entropía cruzada y el aprendizaje comparativo de la función de pérdida. Al minimizar la distancia entre las incrustaciones de voz del mismo hablante y maximizar la distancia entre las incrustaciones de voz de diferentes hablantes, el modelo puede lograr un rendimiento de generalización mejorado y una representación de características de hablante más robusta. Evaluamos el rendimiento del método propuesto utilizando los índices de evaluación de la tasa de error igual (EER) y la función de costo mínimo (minDCF). Los resultados experimentales muestran que el EEE y minDCF en el conjunto de datos Aishell-1 alcanzaron el 1.02% y 0.1221%, respectivamente. Por lo tanto, el uso de la función de pérdida conjunta en el modelo mejorado de SPD-TDNN puede mejorar significativamente el rendimiento de reconocimiento de hablantes del modelo.