logo móvil
Contáctanos

RefinePose: hacia una estimación de postura humana más refinada

Autores: Dong, Hao; Wang, Guodong; Chen, Chenglizhao; Zhang, Xinyue

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

RefinePose: hacia una estimación de postura humana más refinada


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Humano
Estimación de postura
Visión por computadora
ViTPose
RefinePose
Información de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La estimación de postura humana es un tema de investigación muy importante en visión por computadora y atrae a cada vez más investigadores. Recientemente, ViTPose basado en la representación de mapas de calor actualizó el estado del arte para los métodos de estimación de postura. Sin embargo, encontramos que ViTPose todavía tiene margen de mejora en nuestros experimentos. Por un lado, el módulo de PatchEmbedding de ViTPose utiliza una capa convolucional con una zancada de 14 x 14 para reducir el tamaño de la imagen de entrada, lo que resulta en la pérdida de una cantidad significativa de información de características. Por otro lado, los dos métodos de decodificación (Decodificador Clásico y Decodificador Simple) utilizados por ViTPose no están lo suficientemente refinados: la convolución transpuesta en el Decodificador Clásico produce el efecto de tablero de ajedrez inherente; el factor de upsampling en el Decodificador Simple es demasiado grande, lo que resulta en el mapa de calor borroso. Con este fin, proponemos un nuevo método de estimación de postura basado en ViTPose, denominado RefinePose. En RefinePose, diseñamos el módulo GradualEmbedding y el Decodificador de Fusión, respectivamente, para resolver los problemas mencionados anteriormente. Específicamente, el módulo GradualEmbedding solo reduce el tamaño de la imagen a la mitad del tamaño original en cada etapa de reducción, y reduce la imagen de entrada a un tamaño fijo (16 x 112 en ViTPose) a través de múltiples etapas de reducción. Al mismo tiempo, fusionamos las salidas de las capas de max pooling y convolucionales en cada etapa de reducción, lo que conserva más información de características significativas. En la etapa de decodificación, el Decodificador de Fusión diseñado por nosotros combina la interpolación bilineal con capas de max unpooling, y gradualmente aumenta el tamaño de las mapas de características para restaurar el mapa de calor predicho. Además, también diseñamos el módulo de Agregación de Características para agregar características después del muestreo (upsampling y downsampling). Validamos el RefinePose en el conjunto de datos COCO. Los experimentos muestran que RefinePose ha logrado un mejor rendimiento que ViTPose.

Otros recursos que podrían interesarte

Temas Virtualpro