logo móvil
Contáctanos

Generación de Pose de Cámara Basada en Unity3D

Autores: Luo, Hao; Luo, Wenjie; Yang, Wenzhu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Generación de Pose de Cámara Basada en Unity3D


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de aprendizaje profundo
Conjuntos de datos virtuales
Escenas interiores
Poses de cámara
Detección de objetos
Tareas de SLAM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los modelos de aprendizaje profundo que realizan tareas complejas requieren el apoyo de conjuntos de datos. Con el avance de la tecnología de realidad virtual, el uso de conjuntos de datos virtuales en modelos de aprendizaje profundo se está volviendo cada vez más común. Las escenas interiores representan un área de interés significativa para la aplicación de tecnologías de visión por computadora. Los conjuntos de datos virtuales interiores existentes exhiben deficiencias en cuanto a las poses de las cámaras, lo que resulta en problemas como oclusión, omisión de objetos y objetos que tienen una proporción demasiado pequeña de la imagen, y tienen un rendimiento deficiente en el entrenamiento para tareas de detección de objetos y localización y mapeo simultáneos (SLAM). Con el objetivo de abordar los problemas relacionados con la capacidad de las cámaras para capturar de manera integral los objetos de la escena, este estudio presenta un algoritmo mejorado basado en el árbol aleatorio de exploración rápida (RRT*) para la generación de poses de cámara en una escena interior en 3D. Mientras tanto, con el fin de generar datos multimodales para diversas tareas de aprendizaje profundo, este estudio diseña un módulo automático de adquisición de imágenes en la plataforma Unity3D. Los resultados experimentales de la ejecución del modelo en varios conjuntos de datos virtuales interiores de uso común, como 3D-FRONT y Hypersim, indican que las secuencias de imágenes generadas en este estudio muestran mejoras en términos de tasa de captura de objetos y eficiencia. Incluso en entornos desordenados como los de SceneNet RGB-D, la tasa de captura de objetos se mantiene estable en alrededor del 75%. En comparación con las secuencias de imágenes de los conjuntos de datos originales, las generadas en este estudio logran mejoras en las tareas de detección de objetos y SLAM, con incrementos de hasta aproximadamente el 30% en mAP para la tarea de detección de objetos YOLOv10 y hasta aproximadamente el 10% en SR para el algoritmo ORB-SLAM.

Otros recursos que podrían interesarte

Temas Virtualpro