Un estudio sobre el reconocimiento de emociones en el habla utilizando aprendizaje profundo y mecanismo de atención
Autores: Lieskovská, Eva; Jakubec, Maro; Jarina, Roman; Chmulík, Michal
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un estudio sobre el reconocimiento de emociones en el habla utilizando aprendizaje profundo y mecanismo de atención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Emociones
Reconocimiento de emociones en el habla
Interacción humano-computadora
Redes neuronales profundas
Mecanismos de atención
Base de datos de referencia IEMOCAP
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Las emociones son una parte integral de las interacciones humanas y son factores significativos en la determinación de la satisfacción del usuario u opinión del cliente. Los módulos de reconocimiento de emociones en el habla (SER) también juegan un papel importante en el desarrollo de aplicaciones de interacción humano-computadora (HCI). Se han desarrollado un gran número de sistemas SER en las últimas décadas. Las redes neuronales profundas (DNN) basadas en la atención se han mostrado como herramientas adecuadas para la extracción de información distribuida de manera desigual en el tiempo en el contenido multimedia. El mecanismo de atención ha sido incorporado recientemente en las arquitecturas DNN para enfatizar también la información emocional relevante. Este artículo proporciona una revisión del desarrollo reciente en SER y examina el impacto de varios mecanismos de atención en el rendimiento de SER. Se realiza una comparación general de las precisiones del sistema en una base de datos de referencia ampliamente utilizada, IEMOCAP.
Descripción
Las emociones son una parte integral de las interacciones humanas y son factores significativos en la determinación de la satisfacción del usuario u opinión del cliente. Los módulos de reconocimiento de emociones en el habla (SER) también juegan un papel importante en el desarrollo de aplicaciones de interacción humano-computadora (HCI). Se han desarrollado un gran número de sistemas SER en las últimas décadas. Las redes neuronales profundas (DNN) basadas en la atención se han mostrado como herramientas adecuadas para la extracción de información distribuida de manera desigual en el tiempo en el contenido multimedia. El mecanismo de atención ha sido incorporado recientemente en las arquitecturas DNN para enfatizar también la información emocional relevante. Este artículo proporciona una revisión del desarrollo reciente en SER y examina el impacto de varios mecanismos de atención en el rendimiento de SER. Se realiza una comparación general de las precisiones del sistema en una base de datos de referencia ampliamente utilizada, IEMOCAP.