Reconocimiento de voz basado en la función de pérdida conjunta

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de voz basado en la función de pérdida conjunta

Autores: Feng, Tengteng; Fan, Houbin; Ge, Fengpei; Cao, Shuxin; Liang, Chunyan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Reconocimiento de voz basado en la función de pérdida conjunta

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Red neuronal densa de tiempo con retraso estadístico

Desequilibrio

Sobreajuste

Capacidad de generalización

Función de pérdida conjunta

Reconocimiento de locutor

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones

El modelo de red neuronal denso de retardo temporal piramidal estadístico (SPD-TDNN) dificulta el manejo del desequilibrio de los datos de entrenamiento, presenta un alto riesgo de sobreajuste y tiene una débil capacidad de generalización. Para resolver estos problemas, proponemos un método basado en la función de pérdida conjunta y en el modelo de red neuronal denso de retardo temporal piramidal estadístico mejorado (JLF-ISPD-TDNN), que mejora el modelo SPD-TDNN y utiliza el método de función de pérdida conjunta para combinar las ventajas de la función de pérdida de entropía cruzada y el aprendizaje comparativo de la función de pérdida. Al minimizar la distancia entre las incrustaciones de voz del mismo hablante y maximizar la distancia entre las incrustaciones de voz de diferentes hablantes, el modelo puede lograr un rendimiento de generalización mejorado y una representación de características de hablante más robusta. Evaluamos el rendimiento del método propuesto utilizando los índices de evaluación de la tasa de error igual (EER) y la función de costo mínimo (minDCF). Los resultados experimentales muestran que el EEE y minDCF en el conjunto de datos Aishell-1 alcanzaron el 1.02% y 0.1221%, respectivamente. Por lo tanto, el uso de la función de pérdida conjunta en el modelo mejorado de SPD-TDNN puede mejorar significativamente el rendimiento de reconocimiento de hablantes del modelo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro