Optimizando el reconocimiento de emociones en el habla con aprendizaje profundo y optimización de lobo gris: un enfoque de múltiples conjuntos de datos
Autores: Tyagi, Suryakant; Szénási, Sándor
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Optimizando el reconocimiento de emociones en el habla con aprendizaje profundo y optimización de lobo gris: un enfoque de múltiples conjuntos de datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje automático
Reconocimiento de emociones en el habla
Computación centrada en el ser humano
Algoritmos de aprendizaje profundo
CNN
LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El aprendizaje automático y el reconocimiento de emociones en el habla son campos en rápida evolución, que impactan significativamente en la informática centrada en el ser humano. El aprendizaje automático permite a las computadoras aprender de los datos y hacer predicciones, mientras que el reconocimiento de emociones en el habla permite a las computadoras identificar y comprender las emociones humanas en el habla. Estas tecnologías contribuyen a la creación de aplicaciones innovadoras de interacción humano-computadora (HCI). Los algoritmos de aprendizaje profundo, capaces de aprender características de alto nivel directamente de los datos crudos, han dado lugar a nuevos enfoques de reconocimiento de emociones que emplean modelos entrenados en representaciones avanzadas del habla como espectrogramas y representaciones tiempo-frecuencia. Este estudio presenta modelos CNN y LSTM con optimización GWO, con el objetivo de determinar parámetros óptimos para lograr una precisión mejorada dentro de un conjunto de parámetros especificado. Los modelos CNN y LSTM propuestos con optimización GWO fueron sometidos a pruebas de rendimiento en cuatro conjuntos de datos diversos: RAVDESS, SAVEE, TESS y EMODB. Los resultados indicaron un rendimiento superior de los modelos en comparación con SVM lineales y kernelizados, con o sin optimizadores GWO.
Descripción
El aprendizaje automático y el reconocimiento de emociones en el habla son campos en rápida evolución, que impactan significativamente en la informática centrada en el ser humano. El aprendizaje automático permite a las computadoras aprender de los datos y hacer predicciones, mientras que el reconocimiento de emociones en el habla permite a las computadoras identificar y comprender las emociones humanas en el habla. Estas tecnologías contribuyen a la creación de aplicaciones innovadoras de interacción humano-computadora (HCI). Los algoritmos de aprendizaje profundo, capaces de aprender características de alto nivel directamente de los datos crudos, han dado lugar a nuevos enfoques de reconocimiento de emociones que emplean modelos entrenados en representaciones avanzadas del habla como espectrogramas y representaciones tiempo-frecuencia. Este estudio presenta modelos CNN y LSTM con optimización GWO, con el objetivo de determinar parámetros óptimos para lograr una precisión mejorada dentro de un conjunto de parámetros especificado. Los modelos CNN y LSTM propuestos con optimización GWO fueron sometidos a pruebas de rendimiento en cuatro conjuntos de datos diversos: RAVDESS, SAVEE, TESS y EMODB. Los resultados indicaron un rendimiento superior de los modelos en comparación con SVM lineales y kernelizados, con o sin optimizadores GWO.