Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana
Autores: Wang, Xilong; Shi, Nianfeng; Wang, Guoqiang; Shao, Jie; Zhao, Shuaibo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reducir significativamente la complejidad computacional
Rendimiento de la estimación de postura humana
Oclusión y ruido de fondo
Fusión de características no diferenciadas
Convolución deformable y atención
Información de puntos clave.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Aunque modelar la autoatención puede reducir significativamente la complejidad computacional, el rendimiento de la estimación de postura humana sigue siendo afectado por la oclusión y el ruido de fondo, y la fusión de características no diferenciadas conduce a una pérdida significativa de información. Para abordar estos problemas, proponemos un nuevo marco de estimación de postura humana llamado DatPose (convolución deformable y atención para la estimación de postura humana), que combina la convolución deformable y la autoatención para aliviar estos problemas. Dado que los puntos clave del cuerpo humano están distribuidos principalmente en el borde del cuerpo humano, adoptamos la estrategia de convolución deformable para obtener la información de características de nivel bajo de la imagen. Nuestro método propuesto aprovecha las pistas visuales para capturar información detallada de los puntos clave, que incrustamos en el codificador Transformer para aprender las restricciones de los puntos clave. Más importante aún, diseñamos un módulo paralelo bidireccional de múltiples canales con fusión de autoatención y convolución para mejorar el peso de los puntos clave en las pistas visuales. Con el fin de fortalecer la relación implícita de fusión, intentamos generar tokens de puntos clave para las pistas visuales del módulo de fusión y los transformers, respectivamente. Nuestros resultados experimentales en los conjuntos de datos COCO y MPII muestran que realizar el módulo de fusión de puntos clave mejora la información de los puntos clave. Experimentos extensos y análisis visual demuestran la robustez de nuestro modelo en escenas complejas y nuestro marco supera a las redes ligeras populares en la estimación de postura humana.
Descripción
Aunque modelar la autoatención puede reducir significativamente la complejidad computacional, el rendimiento de la estimación de postura humana sigue siendo afectado por la oclusión y el ruido de fondo, y la fusión de características no diferenciadas conduce a una pérdida significativa de información. Para abordar estos problemas, proponemos un nuevo marco de estimación de postura humana llamado DatPose (convolución deformable y atención para la estimación de postura humana), que combina la convolución deformable y la autoatención para aliviar estos problemas. Dado que los puntos clave del cuerpo humano están distribuidos principalmente en el borde del cuerpo humano, adoptamos la estrategia de convolución deformable para obtener la información de características de nivel bajo de la imagen. Nuestro método propuesto aprovecha las pistas visuales para capturar información detallada de los puntos clave, que incrustamos en el codificador Transformer para aprender las restricciones de los puntos clave. Más importante aún, diseñamos un módulo paralelo bidireccional de múltiples canales con fusión de autoatención y convolución para mejorar el peso de los puntos clave en las pistas visuales. Con el fin de fortalecer la relación implícita de fusión, intentamos generar tokens de puntos clave para las pistas visuales del módulo de fusión y los transformers, respectivamente. Nuestros resultados experimentales en los conjuntos de datos COCO y MPII muestran que realizar el módulo de fusión de puntos clave mejora la información de los puntos clave. Experimentos extensos y análisis visual demuestran la robustez de nuestro modelo en escenas complejas y nuestro marco supera a las redes ligeras populares en la estimación de postura humana.