logo móvil
Contáctanos

Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana

Autores: Wang, Xilong; Shi, Nianfeng; Wang, Guoqiang; Shao, Jie; Zhao, Shuaibo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reducir significativamente la complejidad computacional
Rendimiento de la estimación de postura humana
Oclusión y ruido de fondo
Fusión de características no diferenciadas
Convolución deformable y atención
Información de puntos clave.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
Aunque modelar la autoatención puede reducir significativamente la complejidad computacional, el rendimiento de la estimación de postura humana sigue siendo afectado por la oclusión y el ruido de fondo, y la fusión de características no diferenciadas conduce a una pérdida significativa de información. Para abordar estos problemas, proponemos un nuevo marco de estimación de postura humana llamado DatPose (convolución deformable y atención para la estimación de postura humana), que combina la convolución deformable y la autoatención para aliviar estos problemas. Dado que los puntos clave del cuerpo humano están distribuidos principalmente en el borde del cuerpo humano, adoptamos la estrategia de convolución deformable para obtener la información de características de nivel bajo de la imagen. Nuestro método propuesto aprovecha las pistas visuales para capturar información detallada de los puntos clave, que incrustamos en el codificador Transformer para aprender las restricciones de los puntos clave. Más importante aún, diseñamos un módulo paralelo bidireccional de múltiples canales con fusión de autoatención y convolución para mejorar el peso de los puntos clave en las pistas visuales. Con el fin de fortalecer la relación implícita de fusión, intentamos generar tokens de puntos clave para las pistas visuales del módulo de fusión y los transformers, respectivamente. Nuestros resultados experimentales en los conjuntos de datos COCO y MPII muestran que realizar el módulo de fusión de puntos clave mejora la información de los puntos clave. Experimentos extensos y análisis visual demuestran la robustez de nuestro modelo en escenas complejas y nuestro marco supera a las redes ligeras populares en la estimación de postura humana.

Otros recursos que podrían interesarte

Temas Virtualpro