Reconocimiento de emociones en el habla en los conjuntos de datos MELD y RAVDESS utilizando CNN

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de emociones en el habla en los conjuntos de datos MELD y RAVDESS utilizando CNN

Autores: Waleed, Gheed T.; Shaker, Shaimaa H.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Reconocimiento de emociones en el habla en los conjuntos de datos MELD y RAVDESS utilizando CNN

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de emociones en el habla

Interacción humano-computadora

Computación afectiva

Red neuronal convolucional

Fusión de múltiples características

Reconocimiento de emociones en tiempo real

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El reconocimiento de emociones en el habla (SER) juega un papel vital en la mejora de la interacción humano-computadora (HCI) y puede aplicarse en la computación afectiva, el soporte virtual y la atención médica. Esta investigación presenta un marco de SER de alto rendimiento basado en una red neuronal convolucional 1D ligera (1D-CNN) y una técnica de fusión de múltiples características. En lugar de emplear espectrogramas como entrada basada en imágenes, se calculan características a nivel de cuadro (coeficientes cepstrales en frecuencia Mel, espectrogramas Mel y vectores de Chroma) a lo largo de las secuencias para preservar la información temporal y reducir el costo computacional. El modelo alcanzó precisiones de clasificación del 94.0% en MELD (charlas multiparte) y del 91.9% en RAVDESS (discurso actuado). Los experimentos de ablación demuestran que la integración de características complementarias supera significativamente la utilización de una única característica como línea base. Las técnicas de aumento de datos, que incluyen ruido gaussiano y desplazamiento temporal, mejoran la generalización del modelo. El método propuesto demuestra un potencial significativo para el reconocimiento de emociones en tiempo real utilizando solo audio en dispositivos embebidos o con recursos limitados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro