Reconocimiento de emociones faciales con aprendizaje auto-supervisado basado en transformadores de atención intermodal
Autores: Chaudhari, Aayushi; Bhatt, Chintan; Krishna, Achyut; Travieso-González, Carlos M.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de emociones faciales con aprendizaje auto-supervisado basado en transformadores de atención intermodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones
Señales cognitivo-emocionales
Entrada de video
Modelos de aprendizaje auto-supervisado
Clasificación de emociones multimodal
Fusión basada en transformadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
El reconocimiento de emociones es un campo de investigación muy desafiante debido a su complejidad, ya que las diferencias individuales en las señales cognitivo-emocionales involucran una amplia variedad de formas, incluyendo el lenguaje, las expresiones y el habla. Si utilizamos videos como entrada, podemos adquirir una gran cantidad de datos para analizar las emociones humanas. En esta investigación, utilizamos características derivadas de modelos de aprendizaje auto supervisado preentrenados por separado para combinar datos de texto, audio (habla) y visual. La fusión de características y representación es el mayor desafío en la investigación de clasificación de emociones multimodales. Debido a la gran dimensionalidad de las características del aprendizaje auto supervisado, presentamos un método único de fusión basado en transformadores y atención para incorporar características multimodales del aprendizaje auto supervisado que logró una precisión del 86.40% para la clasificación de emociones multimodales.
Descripción
El reconocimiento de emociones es un campo de investigación muy desafiante debido a su complejidad, ya que las diferencias individuales en las señales cognitivo-emocionales involucran una amplia variedad de formas, incluyendo el lenguaje, las expresiones y el habla. Si utilizamos videos como entrada, podemos adquirir una gran cantidad de datos para analizar las emociones humanas. En esta investigación, utilizamos características derivadas de modelos de aprendizaje auto supervisado preentrenados por separado para combinar datos de texto, audio (habla) y visual. La fusión de características y representación es el mayor desafío en la investigación de clasificación de emociones multimodales. Debido a la gran dimensionalidad de las características del aprendizaje auto supervisado, presentamos un método único de fusión basado en transformadores y atención para incorporar características multimodales del aprendizaje auto supervisado que logró una precisión del 86.40% para la clasificación de emociones multimodales.