Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención
Autores: Mountzouris, Konstantinos; Perikos, Isidoros; Hatzilygeroudis, Ioannis
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones en el habla
Redes de aprendizaje profundo
Mecanismo de atención
Red neuronal convolucional
Red LSTM
Prevención de sobreajuste
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla (SER) es un problema interesante y difícil de manejar. En este documento, abordamos este problema a través de la implementación de redes de aprendizaje profundo. Hemos diseñado e implementado seis redes de aprendizaje profundo diferentes, una red de creencias profundas (DBN), una red neuronal profunda simple (SDNN), una red LSTM (LSTM), una red LSTM con la adición de un mecanismo de atención (LSTM-ATN), una red neuronal convolucional (CNN) y una red neuronal convolucional con la adición de un mecanismo de atención (CNN-ATN), teniendo en cuenta, además de resolver el problema SER, probar el impacto del mecanismo de atención en los resultados. También se utilizan técnicas de abandono y normalización por lotes para mejorar la capacidad de generalización (prevención de sobreajuste) de los modelos, así como para acelerar el proceso de entrenamiento. Se utilizaron la base de datos de Expresión Audiovisual de Emoción de Surrey (SAVEE) y la Base de Datos Audiovisual de Ryerson (RAVDESS) para el entrenamiento y evaluación de nuestros modelos. Los resultados mostraron que las redes con la adición del mecanismo de atención lo hicieron mejor que las demás. Además, mostraron que el CNN-ATN fue el mejor entre las redes probadas, logrando una precisión del 74% para la base de datos SAVEE y del 77% para la RAVDESS, superando los sistemas de vanguardia existentes para los mismos conjuntos de datos.
Descripción
El reconocimiento de emociones en el habla (SER) es un problema interesante y difícil de manejar. En este documento, abordamos este problema a través de la implementación de redes de aprendizaje profundo. Hemos diseñado e implementado seis redes de aprendizaje profundo diferentes, una red de creencias profundas (DBN), una red neuronal profunda simple (SDNN), una red LSTM (LSTM), una red LSTM con la adición de un mecanismo de atención (LSTM-ATN), una red neuronal convolucional (CNN) y una red neuronal convolucional con la adición de un mecanismo de atención (CNN-ATN), teniendo en cuenta, además de resolver el problema SER, probar el impacto del mecanismo de atención en los resultados. También se utilizan técnicas de abandono y normalización por lotes para mejorar la capacidad de generalización (prevención de sobreajuste) de los modelos, así como para acelerar el proceso de entrenamiento. Se utilizaron la base de datos de Expresión Audiovisual de Emoción de Surrey (SAVEE) y la Base de Datos Audiovisual de Ryerson (RAVDESS) para el entrenamiento y evaluación de nuestros modelos. Los resultados mostraron que las redes con la adición del mecanismo de atención lo hicieron mejor que las demás. Además, mostraron que el CNN-ATN fue el mejor entre las redes probadas, logrando una precisión del 74% para la base de datos SAVEE y del 77% para la RAVDESS, superando los sistemas de vanguardia existentes para los mismos conjuntos de datos.