Sl-swin: un enfoque de aprendizaje profundo basado en transformadores para la detección de macro- y microexpresiones en conjuntos de datos de expresiones de tamaño pequeño
Autores: He, Erheng; Chen, Qianru; Zhong, Qinghua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Sl-swin: un enfoque de aprendizaje profundo basado en transformadores para la detección de macro- y microexpresiones en conjuntos de datos de expresiones de tamaño pequeño
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Análisis
Macro-expresión
Micro-expresión
Enfoque de aprendizaje profundo
Basado en Transformer
Expresiones faciales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
En los últimos años, el análisis de las macro y microexpresiones ha llamado la atención de los investigadores. Estas expresiones proporcionan señales visuales sobre las emociones de un individuo, las cuales pueden ser utilizadas en una amplia gama de aplicaciones potenciales como la detección de mentiras y la vigilancia. En este documento, abordamos el desafío de detectar macro y microexpresiones faciales en videos y presentamos resultados convincentes mediante el uso de un enfoque de aprendizaje profundo para analizar las características del flujo óptico. A diferencia de otros enfoques de aprendizaje profundo que se basan principalmente en Redes Neuronales Convolucionales (CNN), proponemos un enfoque de aprendizaje profundo basado en Transformadores que predice una puntuación que indica la probabilidad de que un fotograma se encuentre dentro de un intervalo de expresión. En contraste con otros modelos basados en Transformadores que logran un alto rendimiento al ser pre-entrenados en conjuntos de datos grandes, nuestro modelo de aprendizaje profundo, llamado SL-Swin, que incorpora Tokenización de Parches Desplazados y Autoatención Local en la red Swin Transformer base, detecta de manera efectiva las macro y microexpresiones al ser entrenado desde cero en conjuntos de datos de expresiones de tamaño pequeño. Nuestros resultados de evaluación superan el resultado de referencia de detección de MEGC 2022, obteniendo un puntaje F1 general de 0.1366. Además, nuestro enfoque se desempeña bien en la tarea de detección de MEGC 2021, con un puntaje F1 general de 0.1824 y 0.1357 en los videos largos de CAS(ME) y SAMM, respectivamente. El código está disponible públicamente en GitHub.
Descripción
En los últimos años, el análisis de las macro y microexpresiones ha llamado la atención de los investigadores. Estas expresiones proporcionan señales visuales sobre las emociones de un individuo, las cuales pueden ser utilizadas en una amplia gama de aplicaciones potenciales como la detección de mentiras y la vigilancia. En este documento, abordamos el desafío de detectar macro y microexpresiones faciales en videos y presentamos resultados convincentes mediante el uso de un enfoque de aprendizaje profundo para analizar las características del flujo óptico. A diferencia de otros enfoques de aprendizaje profundo que se basan principalmente en Redes Neuronales Convolucionales (CNN), proponemos un enfoque de aprendizaje profundo basado en Transformadores que predice una puntuación que indica la probabilidad de que un fotograma se encuentre dentro de un intervalo de expresión. En contraste con otros modelos basados en Transformadores que logran un alto rendimiento al ser pre-entrenados en conjuntos de datos grandes, nuestro modelo de aprendizaje profundo, llamado SL-Swin, que incorpora Tokenización de Parches Desplazados y Autoatención Local en la red Swin Transformer base, detecta de manera efectiva las macro y microexpresiones al ser entrenado desde cero en conjuntos de datos de expresiones de tamaño pequeño. Nuestros resultados de evaluación superan el resultado de referencia de detección de MEGC 2022, obteniendo un puntaje F1 general de 0.1366. Además, nuestro enfoque se desempeña bien en la tarea de detección de MEGC 2021, con un puntaje F1 general de 0.1824 y 0.1357 en los videos largos de CAS(ME) y SAMM, respectivamente. El código está disponible públicamente en GitHub.