RefinePose: hacia una estimación de postura humana más refinada
Autores: Dong, Hao; Wang, Guodong; Chen, Chenglizhao; Zhang, Xinyue
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
RefinePose: hacia una estimación de postura humana más refinada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Humano
Estimación de postura
Visión por computadora
ViTPose
RefinePose
Información de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La estimación de postura humana es un tema de investigación muy importante en visión por computadora y atrae a cada vez más investigadores. Recientemente, ViTPose basado en la representación de mapas de calor actualizó el estado del arte para los métodos de estimación de postura. Sin embargo, encontramos que ViTPose todavía tiene margen de mejora en nuestros experimentos. Por un lado, el módulo de PatchEmbedding de ViTPose utiliza una capa convolucional con una zancada de 14 x 14 para reducir el tamaño de la imagen de entrada, lo que resulta en la pérdida de una cantidad significativa de información de características. Por otro lado, los dos métodos de decodificación (Decodificador Clásico y Decodificador Simple) utilizados por ViTPose no están lo suficientemente refinados: la convolución transpuesta en el Decodificador Clásico produce el efecto de tablero de ajedrez inherente; el factor de upsampling en el Decodificador Simple es demasiado grande, lo que resulta en el mapa de calor borroso. Con este fin, proponemos un nuevo método de estimación de postura basado en ViTPose, denominado RefinePose. En RefinePose, diseñamos el módulo GradualEmbedding y el Decodificador de Fusión, respectivamente, para resolver los problemas mencionados anteriormente. Específicamente, el módulo GradualEmbedding solo reduce el tamaño de la imagen a la mitad del tamaño original en cada etapa de reducción, y reduce la imagen de entrada a un tamaño fijo (16 x 112 en ViTPose) a través de múltiples etapas de reducción. Al mismo tiempo, fusionamos las salidas de las capas de max pooling y convolucionales en cada etapa de reducción, lo que conserva más información de características significativas. En la etapa de decodificación, el Decodificador de Fusión diseñado por nosotros combina la interpolación bilineal con capas de max unpooling, y gradualmente aumenta el tamaño de las mapas de características para restaurar el mapa de calor predicho. Además, también diseñamos el módulo de Agregación de Características para agregar características después del muestreo (upsampling y downsampling). Validamos el RefinePose en el conjunto de datos COCO. Los experimentos muestran que RefinePose ha logrado un mejor rendimiento que ViTPose.
Descripción
La estimación de postura humana es un tema de investigación muy importante en visión por computadora y atrae a cada vez más investigadores. Recientemente, ViTPose basado en la representación de mapas de calor actualizó el estado del arte para los métodos de estimación de postura. Sin embargo, encontramos que ViTPose todavía tiene margen de mejora en nuestros experimentos. Por un lado, el módulo de PatchEmbedding de ViTPose utiliza una capa convolucional con una zancada de 14 x 14 para reducir el tamaño de la imagen de entrada, lo que resulta en la pérdida de una cantidad significativa de información de características. Por otro lado, los dos métodos de decodificación (Decodificador Clásico y Decodificador Simple) utilizados por ViTPose no están lo suficientemente refinados: la convolución transpuesta en el Decodificador Clásico produce el efecto de tablero de ajedrez inherente; el factor de upsampling en el Decodificador Simple es demasiado grande, lo que resulta en el mapa de calor borroso. Con este fin, proponemos un nuevo método de estimación de postura basado en ViTPose, denominado RefinePose. En RefinePose, diseñamos el módulo GradualEmbedding y el Decodificador de Fusión, respectivamente, para resolver los problemas mencionados anteriormente. Específicamente, el módulo GradualEmbedding solo reduce el tamaño de la imagen a la mitad del tamaño original en cada etapa de reducción, y reduce la imagen de entrada a un tamaño fijo (16 x 112 en ViTPose) a través de múltiples etapas de reducción. Al mismo tiempo, fusionamos las salidas de las capas de max pooling y convolucionales en cada etapa de reducción, lo que conserva más información de características significativas. En la etapa de decodificación, el Decodificador de Fusión diseñado por nosotros combina la interpolación bilineal con capas de max unpooling, y gradualmente aumenta el tamaño de las mapas de características para restaurar el mapa de calor predicho. Además, también diseñamos el módulo de Agregación de Características para agregar características después del muestreo (upsampling y downsampling). Validamos el RefinePose en el conjunto de datos COCO. Los experimentos muestran que RefinePose ha logrado un mejor rendimiento que ViTPose.