Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana

Autores: Wu, Chengyu; Wei, Xin; Li, Shaohua; Zhan, Ao

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mstpose: aprendizaje enriquecido de información visual con transformadores multi-escala para la estimación de postura humana

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estimación de postura

MSTPose

CNN

Transformer

Mapas de características

Dependencias espaciales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

La estimación de postura humana es una tarea de detección compleja en la que la red necesita capturar la información rica contenida en las imágenes. En este documento, proponemos MSTPose (Transformador Multi-Escala para la estimación de postura humana). Específicamente, MSTPose aprovecha una red neuronal convolucional (CNN) de alta resolución para extraer información de textura de las imágenes. Para los mapas de características de tres escalas diferentes producidos por la red principal, cada rama realiza operaciones de atención de coordenadas. Los mapas de características son luego aplanados espacial y canalmente, combinados con tokens de puntos clave generados mediante inicialización aleatoria, y alimentados en una estructura paralela de Transformer para aprender dependencias espaciales entre características. Dado que el Transformer produce características secuenciales unidimensionales, el método de mapa de calor bidimensional convencional es abandonado a favor de la regresión de vectores de coordenadas unidimensionales. Los experimentos muestran que MSTPose supera a otros modelos de estimación de postura basados en CNN y demuestra claras ventajas sobre las redes CNN + Transformer de tipos similares.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro