logo móvil
Contáctanos

Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana

Autores: Wu, Chengyu; Wei, Xin; Li, Shaohua; Zhan, Ao

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estimación de postura
MSTPose
CNN
Transformer
Mapas de características
Dependencias espaciales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
La estimación de postura humana es una tarea de detección compleja en la que la red necesita capturar la información rica contenida en las imágenes. En este documento, proponemos MSTPose (Transformador Multi-Escala para la estimación de postura humana). Específicamente, MSTPose aprovecha una red neuronal convolucional (CNN) de alta resolución para extraer información de textura de las imágenes. Para los mapas de características de tres escalas diferentes producidos por la red principal, cada rama realiza operaciones de atención de coordenadas. Los mapas de características son luego aplanados espacial y canalmente, combinados con tokens de puntos clave generados mediante inicialización aleatoria, y alimentados en una estructura paralela de Transformer para aprender dependencias espaciales entre características. Dado que el Transformer produce características secuenciales unidimensionales, el método de mapa de calor bidimensional convencional es abandonado a favor de la regresión de vectores de coordenadas unidimensionales. Los experimentos muestran que MSTPose supera a otros modelos de estimación de postura basados en CNN y demuestra claras ventajas sobre las redes CNN + Transformer de tipos similares.

Otros recursos que podrían interesarte

Temas Virtualpro