Redes de transformadores Swin de fusión de compensación multimodal SlowFast para reconocimiento de acciones RGB-D
Autores: Xiao, Xiongjiang; Ren, Ziliang; Li, Huan; Wei, Wenhong; Yang, Zhiyong; Yang, Huaide
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Redes de transformadores Swin de fusión de compensación multimodal SlowFast para reconocimiento de acciones RGB-D
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Rgb-d
Tecnología
Acciones humanas
Información espacio-temporal
Bloque de compensación de multimodalidad slowfast
Red neuronal convolucional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
La tecnología basada en RGB-D combina las ventajas de las secuencias RGB y de profundidad que pueden reconocer de manera efectiva las acciones humanas en diferentes entornos. Sin embargo, la información espacio-temporal entre diferentes modalidades es difícil de aprender de manera efectiva entre sí. Para mejorar el intercambio de información entre diferentes modalidades, presentamos un bloque de compensación de multimodalidad SlowFast (SFMCB) que está diseñado para extraer características de compensación. Concretamente, el SFMCB fusiona características de dos vías independientes con diferentes velocidades de cuadro en una sola red neuronal convolucional para lograr mejoras de rendimiento para el modelo. Además, exploramos dos esquemas de fusión para combinar la característica de dos vías independientes con diferentes velocidades de cuadro. Para facilitar el aprendizaje de características de múltiples vías independientes, se utilizan múltiples funciones de pérdida para la optimización conjunta. Para evaluar la efectividad de nuestra arquitectura propuesta, realizamos experimentos en cuatro conjuntos de datos desafiantes: NTU RGB+D 60, NTU RGB+D 120, THU-READ y PKU-MMD. Los resultados experimentales demuestran la efectividad de nuestro modelo propuesto, que utiliza el mecanismo SFMCB para capturar características complementarias de las entradas multimodales.
Descripción
La tecnología basada en RGB-D combina las ventajas de las secuencias RGB y de profundidad que pueden reconocer de manera efectiva las acciones humanas en diferentes entornos. Sin embargo, la información espacio-temporal entre diferentes modalidades es difícil de aprender de manera efectiva entre sí. Para mejorar el intercambio de información entre diferentes modalidades, presentamos un bloque de compensación de multimodalidad SlowFast (SFMCB) que está diseñado para extraer características de compensación. Concretamente, el SFMCB fusiona características de dos vías independientes con diferentes velocidades de cuadro en una sola red neuronal convolucional para lograr mejoras de rendimiento para el modelo. Además, exploramos dos esquemas de fusión para combinar la característica de dos vías independientes con diferentes velocidades de cuadro. Para facilitar el aprendizaje de características de múltiples vías independientes, se utilizan múltiples funciones de pérdida para la optimización conjunta. Para evaluar la efectividad de nuestra arquitectura propuesta, realizamos experimentos en cuatro conjuntos de datos desafiantes: NTU RGB+D 60, NTU RGB+D 120, THU-READ y PKU-MMD. Los resultados experimentales demuestran la efectividad de nuestro modelo propuesto, que utiliza el mecanismo SFMCB para capturar características complementarias de las entradas multimodales.