Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención

Autores: Mountzouris, Konstantinos; Perikos, Isidoros; Hatzilygeroudis, Ioannis

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Reconocimiento de emociones en el habla utilizando redes neuronales convolucionales con mecanismo de atención

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de emociones en el habla

Redes de aprendizaje profundo

Mecanismo de atención

Red neuronal convolucional

Red LSTM

Prevención de sobreajuste

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones

El reconocimiento de emociones en el habla (SER) es un problema interesante y difícil de manejar. En este documento, abordamos este problema a través de la implementación de redes de aprendizaje profundo. Hemos diseñado e implementado seis redes de aprendizaje profundo diferentes, una red de creencias profundas (DBN), una red neuronal profunda simple (SDNN), una red LSTM (LSTM), una red LSTM con la adición de un mecanismo de atención (LSTM-ATN), una red neuronal convolucional (CNN) y una red neuronal convolucional con la adición de un mecanismo de atención (CNN-ATN), teniendo en cuenta, además de resolver el problema SER, probar el impacto del mecanismo de atención en los resultados. También se utilizan técnicas de abandono y normalización por lotes para mejorar la capacidad de generalización (prevención de sobreajuste) de los modelos, así como para acelerar el proceso de entrenamiento. Se utilizaron la base de datos de Expresión Audiovisual de Emoción de Surrey (SAVEE) y la Base de Datos Audiovisual de Ryerson (RAVDESS) para el entrenamiento y evaluación de nuestros modelos. Los resultados mostraron que las redes con la adición del mecanismo de atención lo hicieron mejor que las demás. Además, mostraron que el CNN-ATN fue el mejor entre las redes probadas, logrando una precisión del 74% para la base de datos SAVEE y del 77% para la RAVDESS, superando los sistemas de vanguardia existentes para los mismos conjuntos de datos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro