TransSMPL: eficiente estimación de postura humana con redes de transformador podadas y cuantificadas
Autores: Kim, Yeonggwang; Yoo, Hyeongjun; Ryu, Je-Ho; Lee, Seungjoo; Lee, Jong Hun; Kim, Jinsul
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
TransSMPL: eficiente estimación de postura humana con redes de transformador podadas y cuantificadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformadores
Pose humana 3D
Estimación de forma
Complejidad computacional
Mapas de características
TransSMPL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Los modelos existentes de estimación de postura y forma humana en 3D a menudo tienen dificultades con la complejidad computacional, especialmente al manejar mapas de características de alta resolución. Estos desafíos limitan su capacidad para utilizar eficientemente características detalladas, lo que lleva a un rendimiento subóptimo en la reconstrucción precisa del cuerpo. En este trabajo, proponemos TransSMPL, un nuevo marco de trabajo Transformer construido sobre el modelo SMPL, diseñado específicamente para abordar los desafíos de complejidad computacional y la utilización ineficiente de mapas de características de alta resolución en la estimación de postura y forma humana en 3D. Al reemplazar HRNet con MobileNetV3 para la extracción de características livianas, aplicar técnicas de poda y cuantización, e incorporar un mecanismo de salida temprana, TransSMPL reduce significativamente tanto el costo computacional como el uso de memoria. TransSMPL introduce dos innovaciones clave: (1) un mecanismo de atención multi-escala, reducido de cuatro escalas a dos, que permite una integración de características global y local más eficiente, y (2) una estrategia de salida temprana basada en la confianza, que permite al modelo detener cálculos adicionales cuando se logran predicciones de alta confianza, mejorando aún más la eficiencia. También se aplican poda extensiva y cuantización dinámica para reducir el tamaño del modelo manteniendo un rendimiento competitivo. Experimentos cuantitativos y cualitativos en el conjunto de datos Human3.6M demuestran la eficacia de TransSMPL. Nuestro modelo logra un MPJPE (Error Medio de Posición por Articulación) de 48.5 mm, reduciendo el tamaño del modelo en más del 16% en comparación con los métodos existentes manteniendo un nivel similar de precisión.
Descripción
Los modelos existentes de estimación de postura y forma humana en 3D a menudo tienen dificultades con la complejidad computacional, especialmente al manejar mapas de características de alta resolución. Estos desafíos limitan su capacidad para utilizar eficientemente características detalladas, lo que lleva a un rendimiento subóptimo en la reconstrucción precisa del cuerpo. En este trabajo, proponemos TransSMPL, un nuevo marco de trabajo Transformer construido sobre el modelo SMPL, diseñado específicamente para abordar los desafíos de complejidad computacional y la utilización ineficiente de mapas de características de alta resolución en la estimación de postura y forma humana en 3D. Al reemplazar HRNet con MobileNetV3 para la extracción de características livianas, aplicar técnicas de poda y cuantización, e incorporar un mecanismo de salida temprana, TransSMPL reduce significativamente tanto el costo computacional como el uso de memoria. TransSMPL introduce dos innovaciones clave: (1) un mecanismo de atención multi-escala, reducido de cuatro escalas a dos, que permite una integración de características global y local más eficiente, y (2) una estrategia de salida temprana basada en la confianza, que permite al modelo detener cálculos adicionales cuando se logran predicciones de alta confianza, mejorando aún más la eficiencia. También se aplican poda extensiva y cuantización dinámica para reducir el tamaño del modelo manteniendo un rendimiento competitivo. Experimentos cuantitativos y cualitativos en el conjunto de datos Human3.6M demuestran la eficacia de TransSMPL. Nuestro modelo logra un MPJPE (Error Medio de Posición por Articulación) de 48.5 mm, reduciendo el tamaño del modelo en más del 16% en comparación con los métodos existentes manteniendo un nivel similar de precisión.