logo móvil
Contáctanos

Mejora de la reconstrucción tridimensional de humanos con atención a múltiples escalas a partir de una sola imagen

Autores: Ren, Yong; Zhou, Mingquan; Zhou, Pengbo; Wang, Shibo; Liu, Yangyang; Geng, Guohua; Li, Kang; Cao, Xin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejora de la reconstrucción tridimensional de humanos con atención a múltiples escalas a partir de una sola imagen


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Limitaciones
Mallas humanas en 3D
Redes de aprendizaje profundo
Redes generativas adversarias
Redes de predicción de normales
Imagen única mejorada impulsada por atención multi-escala

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 47

Citaciones: Sin citaciones


Descripción
Debido a las limitaciones inherentes de un solo punto de vista, la reconstrucción de mallas humanas en 3D a partir de una sola imagen ha sido durante mucho tiempo una tarea desafiante. Mientras que las redes de aprendizaje profundo nos permiten aproximar la forma de lados no vistos, capturar los detalles de textura del lado no visible sigue siendo difícil con solo una imagen. Los métodos tradicionales utilizan Redes Generativas Antagónicas (GANs) para predecir los mapas normales del lado no visible, inferir texturas detalladas y arrugas en la superficie del modelo. Sin embargo, hemos identificado desafíos con las redes de predicción normal existentes al tratar con escenas complejas, como la falta de enfoque en características locales y una modelización insuficiente de las relaciones espaciales. Para abordar estos desafíos, presentamos la Reconstrucción Humana en 3D a partir de una sola imagen impulsada por Atención Multiescala Mejorada (EMAR). Este enfoque incorpora un mecanismo novedoso de Atención Multiescala Mejorada (EMSA), que destaca en la captura de características intrincadas y relaciones globales en escenas complejas. EMSA supera a los mecanismos de atención de una sola escala tradicionales ajustando de forma adaptativa los pesos entre características, lo que permite que la red aproveche de manera más efectiva la información en diversas escalas. Además, hemos mejorado el método de fusión de características para integrar mejor representaciones de diferentes escalas. Esta fusión de características mejorada permite que la red comprenda de manera más completa tanto los detalles finos como las estructuras globales dentro de la imagen. Finalmente, hemos diseñado una función de pérdida híbrida adaptada al mecanismo de atención introducido y al método de fusión de características, optimizando el proceso de entrenamiento de la red y mejorando la calidad de los resultados de reconstrucción. Nuestra red demuestra mejoras significativas en el rendimiento para la reconstrucción de modelos humanos en 3D. Los resultados experimentales muestran que nuestro método exhibe una mayor robustez ante posturas desafiantes en comparación con enfoques de una sola escala tradicionales.

Otros recursos que podrían interesarte

Temas Virtualpro