Fusión Multi-Vista de Enjambres de UGV Bajo Oclusión: Un Marco Libre de Calibración Basado en Grafos
Autores: Jing, Jiaqi; Song, Weilong; Zhang, Hangcheng; Liu, Yong; Feng, Fuyong; Zheng, Dezhi; Fan, Shangchun
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Fusión Multi-Vista de Enjambres de UGV Bajo Oclusión: Un Marco Libre de Calibración Basado en Grafos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo terrestre no tripulado
Sistemas de enjambre
Conciencia ambiental
Fusión visual
Marco sin calibración
Estimación de pose
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los sistemas de enjambre de vehículos terrestres no tripulados (UGV), la conciencia ambiental integral es crítica para las operaciones coordinadas. Sin embargo, a menudo se despliegan en entornos restringidos y ricos en oclusiones donde la fusión visual multiagente es esencial. Sin embargo, los métodos existentes están limitados críticamente por parámetros extrínsecos calibrados fuera de línea, lo que dificulta el despliegue flexible, y por una fuerte suposición de co-visibilidad, que falla bajo oclusiones severas. Para superar estas limitaciones, introducimos un marco de trabajo de extremo a extremo, libre de calibración, para el registro conjunto de cámaras y sujetos. Nuestro enfoque comienza con un módulo de vista única que estima las poses y características de apariencia de los sujetos. Posteriormente, un novedoso módulo de propagación de pose basado en grafos (GPPM) trata las cámaras de los UGV como nodos en un grafo, conectándolos con aristas cuando comparten sujetos co-visibles identificados a través de coincidencia de apariencia. La búsqueda en amplitud (BFS) encuentra el camino de registro más corto desde cualquier cámara hasta una cámara raíz designada, permitiendo la propagación de la pose a través de enlaces de co-visibilidad locales y la alineación global de todos los sujetos en un espacio unificado de vista de pájaro (BEV). Esta estrategia relaja el estricto requisito de co-visibilidad total con el nodo raíz. Se propone una función de pérdida de múltiples tareas para optimizar conjuntamente la estimación de pose y la coincidencia de características. Entrenado y evaluado en un conjunto de datos sintético con oclusiones (CSRD-O) recopilado por un sistema de enjambre UGV, nuestro marco logra errores medios de pose de cámara de 1.57 m/8.70 grados y errores medios de pose de sujeto de 1.40 m/9.14 grados. Además, demostramos una tarea de monitoreo de escena utilizando un sistema de enjambre UGV. Los experimentos muestran que el método propuesto genera estimaciones robustas de BEV incluso bajo oclusiones severas y baja superposición entre vistas. Este trabajo presenta un esquema de percepción de fusión multi-vista puramente visual y auto-calibrante, demostrando su potencial para apoyar la percepción cooperativa, el monitoreo orientado a tareas y la conciencia situacional colectiva en sistemas de enjambre UGV.
Descripción
En los sistemas de enjambre de vehículos terrestres no tripulados (UGV), la conciencia ambiental integral es crítica para las operaciones coordinadas. Sin embargo, a menudo se despliegan en entornos restringidos y ricos en oclusiones donde la fusión visual multiagente es esencial. Sin embargo, los métodos existentes están limitados críticamente por parámetros extrínsecos calibrados fuera de línea, lo que dificulta el despliegue flexible, y por una fuerte suposición de co-visibilidad, que falla bajo oclusiones severas. Para superar estas limitaciones, introducimos un marco de trabajo de extremo a extremo, libre de calibración, para el registro conjunto de cámaras y sujetos. Nuestro enfoque comienza con un módulo de vista única que estima las poses y características de apariencia de los sujetos. Posteriormente, un novedoso módulo de propagación de pose basado en grafos (GPPM) trata las cámaras de los UGV como nodos en un grafo, conectándolos con aristas cuando comparten sujetos co-visibles identificados a través de coincidencia de apariencia. La búsqueda en amplitud (BFS) encuentra el camino de registro más corto desde cualquier cámara hasta una cámara raíz designada, permitiendo la propagación de la pose a través de enlaces de co-visibilidad locales y la alineación global de todos los sujetos en un espacio unificado de vista de pájaro (BEV). Esta estrategia relaja el estricto requisito de co-visibilidad total con el nodo raíz. Se propone una función de pérdida de múltiples tareas para optimizar conjuntamente la estimación de pose y la coincidencia de características. Entrenado y evaluado en un conjunto de datos sintético con oclusiones (CSRD-O) recopilado por un sistema de enjambre UGV, nuestro marco logra errores medios de pose de cámara de 1.57 m/8.70 grados y errores medios de pose de sujeto de 1.40 m/9.14 grados. Además, demostramos una tarea de monitoreo de escena utilizando un sistema de enjambre UGV. Los experimentos muestran que el método propuesto genera estimaciones robustas de BEV incluso bajo oclusiones severas y baja superposición entre vistas. Este trabajo presenta un esquema de percepción de fusión multi-vista puramente visual y auto-calibrante, demostrando su potencial para apoyar la percepción cooperativa, el monitoreo orientado a tareas y la conciencia situacional colectiva en sistemas de enjambre UGV.