Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana

Autores: Wang, Xilong; Shi, Nianfeng; Wang, Guoqiang; Shao, Jie; Zhao, Shuaibo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un marco de fusión de puntos clave en paralelo de múltiples canales para la estimación de la pose humana

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reducir significativamente la complejidad computacional

Rendimiento de la estimación de postura humana

Oclusión y ruido de fondo

Fusión de características no diferenciadas

Convolución deformable y atención

Información de puntos clave.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

Aunque modelar la autoatención puede reducir significativamente la complejidad computacional, el rendimiento de la estimación de postura humana sigue siendo afectado por la oclusión y el ruido de fondo, y la fusión de características no diferenciadas conduce a una pérdida significativa de información. Para abordar estos problemas, proponemos un nuevo marco de estimación de postura humana llamado DatPose (convolución deformable y atención para la estimación de postura humana), que combina la convolución deformable y la autoatención para aliviar estos problemas. Dado que los puntos clave del cuerpo humano están distribuidos principalmente en el borde del cuerpo humano, adoptamos la estrategia de convolución deformable para obtener la información de características de nivel bajo de la imagen. Nuestro método propuesto aprovecha las pistas visuales para capturar información detallada de los puntos clave, que incrustamos en el codificador Transformer para aprender las restricciones de los puntos clave. Más importante aún, diseñamos un módulo paralelo bidireccional de múltiples canales con fusión de autoatención y convolución para mejorar el peso de los puntos clave en las pistas visuales. Con el fin de fortalecer la relación implícita de fusión, intentamos generar tokens de puntos clave para las pistas visuales del módulo de fusión y los transformers, respectivamente. Nuestros resultados experimentales en los conjuntos de datos COCO y MPII muestran que realizar el módulo de fusión de puntos clave mejora la información de los puntos clave. Experimentos extensos y análisis visual demuestran la robustez de nuestro modelo en escenas complejas y nuestro marco supera a las redes ligeras populares en la estimación de postura humana.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro