Reconocimiento de emociones en el habla en los conjuntos de datos MELD y RAVDESS utilizando CNN
Autores: Waleed, Gheed T.; Shaker, Shaimaa H.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Reconocimiento de emociones en el habla en los conjuntos de datos MELD y RAVDESS utilizando CNN
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de emociones en el habla
Interacción humano-computadora
Computación afectiva
Red neuronal convolucional
Fusión de múltiples características
Reconocimiento de emociones en tiempo real
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla (SER) juega un papel vital en la mejora de la interacción humano-computadora (HCI) y puede aplicarse en la computación afectiva, el soporte virtual y la atención médica. Esta investigación presenta un marco de SER de alto rendimiento basado en una red neuronal convolucional 1D ligera (1D-CNN) y una técnica de fusión de múltiples características. En lugar de emplear espectrogramas como entrada basada en imágenes, se calculan características a nivel de cuadro (coeficientes cepstrales en frecuencia Mel, espectrogramas Mel y vectores de Chroma) a lo largo de las secuencias para preservar la información temporal y reducir el costo computacional. El modelo alcanzó precisiones de clasificación del 94.0% en MELD (charlas multiparte) y del 91.9% en RAVDESS (discurso actuado). Los experimentos de ablación demuestran que la integración de características complementarias supera significativamente la utilización de una única característica como línea base. Las técnicas de aumento de datos, que incluyen ruido gaussiano y desplazamiento temporal, mejoran la generalización del modelo. El método propuesto demuestra un potencial significativo para el reconocimiento de emociones en tiempo real utilizando solo audio en dispositivos embebidos o con recursos limitados.
Descripción
El reconocimiento de emociones en el habla (SER) juega un papel vital en la mejora de la interacción humano-computadora (HCI) y puede aplicarse en la computación afectiva, el soporte virtual y la atención médica. Esta investigación presenta un marco de SER de alto rendimiento basado en una red neuronal convolucional 1D ligera (1D-CNN) y una técnica de fusión de múltiples características. En lugar de emplear espectrogramas como entrada basada en imágenes, se calculan características a nivel de cuadro (coeficientes cepstrales en frecuencia Mel, espectrogramas Mel y vectores de Chroma) a lo largo de las secuencias para preservar la información temporal y reducir el costo computacional. El modelo alcanzó precisiones de clasificación del 94.0% en MELD (charlas multiparte) y del 91.9% en RAVDESS (discurso actuado). Los experimentos de ablación demuestran que la integración de características complementarias supera significativamente la utilización de una única característica como línea base. Las técnicas de aumento de datos, que incluyen ruido gaussiano y desplazamiento temporal, mejoran la generalización del modelo. El método propuesto demuestra un potencial significativo para el reconocimiento de emociones en tiempo real utilizando solo audio en dispositivos embebidos o con recursos limitados.