Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana
Autores: Wu, Chengyu; Wei, Xin; Li, Shaohua; Zhan, Ao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estimación de postura
MSTPose
CNN
Transformer
Mapas de características
Dependencias espaciales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La estimación de postura humana es una tarea de detección compleja en la que la red necesita capturar la información rica contenida en las imágenes. En este documento, proponemos MSTPose (Transformador Multi-Escala para la estimación de postura humana). Específicamente, MSTPose aprovecha una red neuronal convolucional (CNN) de alta resolución para extraer información de textura de las imágenes. Para los mapas de características de tres escalas diferentes producidos por la red principal, cada rama realiza operaciones de atención de coordenadas. Los mapas de características son luego aplanados espacial y canalmente, combinados con tokens de puntos clave generados mediante inicialización aleatoria, y alimentados en una estructura paralela de Transformer para aprender dependencias espaciales entre características. Dado que el Transformer produce características secuenciales unidimensionales, el método de mapa de calor bidimensional convencional es abandonado a favor de la regresión de vectores de coordenadas unidimensionales. Los experimentos muestran que MSTPose supera a otros modelos de estimación de postura basados en CNN y demuestra claras ventajas sobre las redes CNN + Transformer de tipos similares.
Descripción
La estimación de postura humana es una tarea de detección compleja en la que la red necesita capturar la información rica contenida en las imágenes. En este documento, proponemos MSTPose (Transformador Multi-Escala para la estimación de postura humana). Específicamente, MSTPose aprovecha una red neuronal convolucional (CNN) de alta resolución para extraer información de textura de las imágenes. Para los mapas de características de tres escalas diferentes producidos por la red principal, cada rama realiza operaciones de atención de coordenadas. Los mapas de características son luego aplanados espacial y canalmente, combinados con tokens de puntos clave generados mediante inicialización aleatoria, y alimentados en una estructura paralela de Transformer para aprender dependencias espaciales entre características. Dado que el Transformer produce características secuenciales unidimensionales, el método de mapa de calor bidimensional convencional es abandonado a favor de la regresión de vectores de coordenadas unidimensionales. Los experimentos muestran que MSTPose supera a otros modelos de estimación de postura basados en CNN y demuestra claras ventajas sobre las redes CNN + Transformer de tipos similares.