Verificación emocional del hablante utilizando una nueva red neuronal de cápsulas modificada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Verificación emocional del hablante utilizando una nueva red neuronal de cápsulas modificada

Autores: Nassif, Ali Bou; Shahin, Ismail; Nemmour, Nawel; Hindawi, Noor; Elnagar, Ashraf

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Verificación emocional del hablante utilizando una nueva red neuronal de cápsulas modificada

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes neuronales de cápsulas

Redes neuronales convolucionales

Información espacial

Espectrogramas

Verificación de hablantes

Rendimiento de verificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

Las redes neuronales de cápsulas (CapsNet) son consideradas como sustitutos eficientes de las redes neuronales convolucionales (CNN) debido a su potente capacidad de representación jerárquica. Sin embargo, las CNN sufren de su incapacidad para grabar información espacial en espectrogramas. La principal limitación de CapsNet está relacionada con el método de compresión que puede implementarse en modelos CNN pero no puede emplearse directamente en CapsNet. Como resultado, proponemos una arquitectura novedosa basada en CapsNet comprimido de memoria a largo plazo de doble canal (DC-LSTM-COMP CapsNet) para la verificación de locutores en entornos de habla emocional y estresante. El enfoque propuesto se percibe como una red de cápsulas modificada que intenta superar las limitaciones que existen dentro de CapsNet original, así como en CNN, al tiempo que mejora el rendimiento de verificación. La arquitectura propuesta se evalúa en cuatro bases de datos distintas. El análisis experimental revela que el rendimiento promedio de verificación de locutores se mejora en comparación con CNN, CapsNet original, así como con los clasificadores convencionales. El algoritmo propuesto logra notablemente la mejor precisión de verificación en las cuatro bases de datos de voz. Por ejemplo, utilizando el conjunto de datos Emiratí, el porcentaje promedio de tasas de error iguales (EERs) obtenido es del 10.50%, basado en la arquitectura propuesta que supera a otros modelos profundos y clásicos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro