logo móvil
Contáctanos

Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención

Autores: Mountzouris, Konstantinos; Perikos, Isidoros; Hatzilygeroudis, Ioannis

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de emociones en el habla
Redes de aprendizaje profundo
Mecanismo de atención
Red neuronal convolucional
Red LSTM
Prevención de sobreajuste

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
El reconocimiento de emociones en el habla (SER) es un problema interesante y difícil de manejar. En este documento, abordamos este problema a través de la implementación de redes de aprendizaje profundo. Hemos diseñado e implementado seis redes de aprendizaje profundo diferentes, una red de creencias profundas (DBN), una red neuronal profunda simple (SDNN), una red LSTM (LSTM), una red LSTM con la adición de un mecanismo de atención (LSTM-ATN), una red neuronal convolucional (CNN) y una red neuronal convolucional con la adición de un mecanismo de atención (CNN-ATN), teniendo en cuenta, además de resolver el problema SER, probar el impacto del mecanismo de atención en los resultados. También se utilizan técnicas de abandono y normalización por lotes para mejorar la capacidad de generalización (prevención de sobreajuste) de los modelos, así como para acelerar el proceso de entrenamiento. Se utilizaron la base de datos de Expresión Audiovisual de Emoción de Surrey (SAVEE) y la Base de Datos Audiovisual de Ryerson (RAVDESS) para el entrenamiento y evaluación de nuestros modelos. Los resultados mostraron que las redes con la adición del mecanismo de atención lo hicieron mejor que las demás. Además, mostraron que el CNN-ATN fue el mejor entre las redes probadas, logrando una precisión del 74% para la base de datos SAVEE y del 77% para la RAVDESS, superando los sistemas de vanguardia existentes para los mismos conjuntos de datos.

Otros recursos que podrían interesarte

Temas Virtualpro