Verificación emocional del hablante utilizando una nueva red neuronal de cápsulas modificada
Autores: Nassif, Ali Bou; Shahin, Ismail; Nemmour, Nawel; Hindawi, Noor; Elnagar, Ashraf
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Verificación emocional del hablante utilizando una nueva red neuronal de cápsulas modificada
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Redes neuronales de cápsulas
Redes neuronales convolucionales
Información espacial
Espectrogramas
Verificación de hablantes
Rendimiento de verificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Las redes neuronales de cápsulas (CapsNet) son consideradas como sustitutos eficientes de las redes neuronales convolucionales (CNN) debido a su potente capacidad de representación jerárquica. Sin embargo, las CNN sufren de su incapacidad para grabar información espacial en espectrogramas. La principal limitación de CapsNet está relacionada con el método de compresión que puede implementarse en modelos CNN pero no puede emplearse directamente en CapsNet. Como resultado, proponemos una arquitectura novedosa basada en CapsNet comprimido de memoria a largo plazo de doble canal (DC-LSTM-COMP CapsNet) para la verificación de locutores en entornos de habla emocional y estresante. El enfoque propuesto se percibe como una red de cápsulas modificada que intenta superar las limitaciones que existen dentro de CapsNet original, así como en CNN, al tiempo que mejora el rendimiento de verificación. La arquitectura propuesta se evalúa en cuatro bases de datos distintas. El análisis experimental revela que el rendimiento promedio de verificación de locutores se mejora en comparación con CNN, CapsNet original, así como con los clasificadores convencionales. El algoritmo propuesto logra notablemente la mejor precisión de verificación en las cuatro bases de datos de voz. Por ejemplo, utilizando el conjunto de datos Emiratí, el porcentaje promedio de tasas de error iguales (EERs) obtenido es del 10.50%, basado en la arquitectura propuesta que supera a otros modelos profundos y clásicos.
Descripción
Las redes neuronales de cápsulas (CapsNet) son consideradas como sustitutos eficientes de las redes neuronales convolucionales (CNN) debido a su potente capacidad de representación jerárquica. Sin embargo, las CNN sufren de su incapacidad para grabar información espacial en espectrogramas. La principal limitación de CapsNet está relacionada con el método de compresión que puede implementarse en modelos CNN pero no puede emplearse directamente en CapsNet. Como resultado, proponemos una arquitectura novedosa basada en CapsNet comprimido de memoria a largo plazo de doble canal (DC-LSTM-COMP CapsNet) para la verificación de locutores en entornos de habla emocional y estresante. El enfoque propuesto se percibe como una red de cápsulas modificada que intenta superar las limitaciones que existen dentro de CapsNet original, así como en CNN, al tiempo que mejora el rendimiento de verificación. La arquitectura propuesta se evalúa en cuatro bases de datos distintas. El análisis experimental revela que el rendimiento promedio de verificación de locutores se mejora en comparación con CNN, CapsNet original, así como con los clasificadores convencionales. El algoritmo propuesto logra notablemente la mejor precisión de verificación en las cuatro bases de datos de voz. Por ejemplo, utilizando el conjunto de datos Emiratí, el porcentaje promedio de tasas de error iguales (EERs) obtenido es del 10.50%, basado en la arquitectura propuesta que supera a otros modelos profundos y clásicos.