Un diseño compacto y potente de red de una sola etapa para la estimación de posturas de múltiples personas
Autores: Xiao, Yabo; Wang, Xiaojuan; He, Mingshu; Jin, Lei; Song, Mei; Zhao, Jian
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un diseño compacto y potente de red de una sola etapa para la estimación de posturas de múltiples personas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estimación de postura
De arriba hacia abajo
De abajo hacia arriba
Puntos clave
Instancia humana
Representación del cuerpo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
La estimación de poses multi-persona generalmente sigue los paradigmas de arriba hacia abajo y de abajo hacia arriba. El paradigma de arriba hacia abajo detecta todas las cajas humanas y luego realiza la estimación de poses de una sola persona en cada ROI. El paradigma de abajo hacia arriba localiza puntos clave sin identidad y luego los agrupa en individuos. Ambos utilizan una etapa adicional para construir la relación entre la instancia humana y los puntos clave correspondientes (por ejemplo, la detección humana de arriba hacia abajo o un proceso de agrupación de abajo hacia arriba). La etapa adicional conlleva un alto costo computacional y un redundante pipeline de dos etapas. Para abordar el problema anterior, introducimos un método de representación corporal detallado. Concretamente, el cuerpo humano se divide en varias partes locales y cada parte se representa por un punto adaptativo. La nueva representación corporal es capaz de codificar suficientemente la información de poses diversas y modelar efectivamente la relación entre la instancia humana y los puntos clave correspondientes en un solo pase hacia adelante. Con la representación corporal propuesta, introducimos además una red de regresión de poses multi-persona de un solo paso compacta, llamada AdaptivePose++, que es la versión extendida del artículo AAAI-22 AdaptivePose. Durante la inferencia, nuestra red propuesta solo necesita una operación de decodificación de un solo paso para estimar la pose multi-persona sin procesos post-procesamiento y refinamientos complejos. Sin adornos, logramos el rendimiento más competitivo en los representativos benchmarks de estimación de poses 2D MS COCO y CrowdPose en términos de precisión y velocidad. En particular, AdaptivePose++ supera a SWAHR-W48 y CenterGroup-W48, los mejores en su clase, en 3.2 AP y 1.4 AP en COCO mini-val con una velocidad de inferencia más rápida. Además, el excelente rendimiento en los conjuntos de datos de estimación de poses 3D MuCo-3DHP y MuPoTS-3D demuestra aún más su efectividad y generalizabilidad en escenas 3D.
Descripción
La estimación de poses multi-persona generalmente sigue los paradigmas de arriba hacia abajo y de abajo hacia arriba. El paradigma de arriba hacia abajo detecta todas las cajas humanas y luego realiza la estimación de poses de una sola persona en cada ROI. El paradigma de abajo hacia arriba localiza puntos clave sin identidad y luego los agrupa en individuos. Ambos utilizan una etapa adicional para construir la relación entre la instancia humana y los puntos clave correspondientes (por ejemplo, la detección humana de arriba hacia abajo o un proceso de agrupación de abajo hacia arriba). La etapa adicional conlleva un alto costo computacional y un redundante pipeline de dos etapas. Para abordar el problema anterior, introducimos un método de representación corporal detallado. Concretamente, el cuerpo humano se divide en varias partes locales y cada parte se representa por un punto adaptativo. La nueva representación corporal es capaz de codificar suficientemente la información de poses diversas y modelar efectivamente la relación entre la instancia humana y los puntos clave correspondientes en un solo pase hacia adelante. Con la representación corporal propuesta, introducimos además una red de regresión de poses multi-persona de un solo paso compacta, llamada AdaptivePose++, que es la versión extendida del artículo AAAI-22 AdaptivePose. Durante la inferencia, nuestra red propuesta solo necesita una operación de decodificación de un solo paso para estimar la pose multi-persona sin procesos post-procesamiento y refinamientos complejos. Sin adornos, logramos el rendimiento más competitivo en los representativos benchmarks de estimación de poses 2D MS COCO y CrowdPose en términos de precisión y velocidad. En particular, AdaptivePose++ supera a SWAHR-W48 y CenterGroup-W48, los mejores en su clase, en 3.2 AP y 1.4 AP en COCO mini-val con una velocidad de inferencia más rápida. Además, el excelente rendimiento en los conjuntos de datos de estimación de poses 3D MuCo-3DHP y MuPoTS-3D demuestra aún más su efectividad y generalizabilidad en escenas 3D.