Mejora de la reconstrucción tridimensional de humanos con atención a múltiples escalas a partir de una sola imagen
Autores: Ren, Yong; Zhou, Mingquan; Zhou, Pengbo; Wang, Shibo; Liu, Yangyang; Geng, Guohua; Li, Kang; Cao, Xin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejora de la reconstrucción tridimensional de humanos con atención a múltiples escalas a partir de una sola imagen
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Limitaciones
Mallas humanas en 3D
Redes de aprendizaje profundo
Redes generativas adversarias
Redes de predicción de normales
Imagen única mejorada impulsada por atención multi-escala
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
Debido a las limitaciones inherentes de un solo punto de vista, la reconstrucción de mallas humanas en 3D a partir de una sola imagen ha sido durante mucho tiempo una tarea desafiante. Mientras que las redes de aprendizaje profundo nos permiten aproximar la forma de lados no vistos, capturar los detalles de textura del lado no visible sigue siendo difícil con solo una imagen. Los métodos tradicionales utilizan Redes Generativas Antagónicas (GANs) para predecir los mapas normales del lado no visible, inferir texturas detalladas y arrugas en la superficie del modelo. Sin embargo, hemos identificado desafíos con las redes de predicción normal existentes al tratar con escenas complejas, como la falta de enfoque en características locales y una modelización insuficiente de las relaciones espaciales. Para abordar estos desafíos, presentamos la Reconstrucción Humana en 3D a partir de una sola imagen impulsada por Atención Multiescala Mejorada (EMAR). Este enfoque incorpora un mecanismo novedoso de Atención Multiescala Mejorada (EMSA), que destaca en la captura de características intrincadas y relaciones globales en escenas complejas. EMSA supera a los mecanismos de atención de una sola escala tradicionales ajustando de forma adaptativa los pesos entre características, lo que permite que la red aproveche de manera más efectiva la información en diversas escalas. Además, hemos mejorado el método de fusión de características para integrar mejor representaciones de diferentes escalas. Esta fusión de características mejorada permite que la red comprenda de manera más completa tanto los detalles finos como las estructuras globales dentro de la imagen. Finalmente, hemos diseñado una función de pérdida híbrida adaptada al mecanismo de atención introducido y al método de fusión de características, optimizando el proceso de entrenamiento de la red y mejorando la calidad de los resultados de reconstrucción. Nuestra red demuestra mejoras significativas en el rendimiento para la reconstrucción de modelos humanos en 3D. Los resultados experimentales muestran que nuestro método exhibe una mayor robustez ante posturas desafiantes en comparación con enfoques de una sola escala tradicionales.
Descripción
Debido a las limitaciones inherentes de un solo punto de vista, la reconstrucción de mallas humanas en 3D a partir de una sola imagen ha sido durante mucho tiempo una tarea desafiante. Mientras que las redes de aprendizaje profundo nos permiten aproximar la forma de lados no vistos, capturar los detalles de textura del lado no visible sigue siendo difícil con solo una imagen. Los métodos tradicionales utilizan Redes Generativas Antagónicas (GANs) para predecir los mapas normales del lado no visible, inferir texturas detalladas y arrugas en la superficie del modelo. Sin embargo, hemos identificado desafíos con las redes de predicción normal existentes al tratar con escenas complejas, como la falta de enfoque en características locales y una modelización insuficiente de las relaciones espaciales. Para abordar estos desafíos, presentamos la Reconstrucción Humana en 3D a partir de una sola imagen impulsada por Atención Multiescala Mejorada (EMAR). Este enfoque incorpora un mecanismo novedoso de Atención Multiescala Mejorada (EMSA), que destaca en la captura de características intrincadas y relaciones globales en escenas complejas. EMSA supera a los mecanismos de atención de una sola escala tradicionales ajustando de forma adaptativa los pesos entre características, lo que permite que la red aproveche de manera más efectiva la información en diversas escalas. Además, hemos mejorado el método de fusión de características para integrar mejor representaciones de diferentes escalas. Esta fusión de características mejorada permite que la red comprenda de manera más completa tanto los detalles finos como las estructuras globales dentro de la imagen. Finalmente, hemos diseñado una función de pérdida híbrida adaptada al mecanismo de atención introducido y al método de fusión de características, optimizando el proceso de entrenamiento de la red y mejorando la calidad de los resultados de reconstrucción. Nuestra red demuestra mejoras significativas en el rendimiento para la reconstrucción de modelos humanos en 3D. Los resultados experimentales muestran que nuestro método exhibe una mayor robustez ante posturas desafiantes en comparación con enfoques de una sola escala tradicionales.