Un método de navegación visual por objetivos para quadrotor basado en un modelo de lenguaje grande en un entorno desconocido
Autores: Liu, Yunzhuo; Ma, Zhaowei; Guo, Jiankun; Sun, Haozhe; Niu, Yifeng; Zhang, Hong; Wang, Mengyun
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un método de navegación visual por objetivos para quadrotor basado en un modelo de lenguaje grande en un entorno desconocido
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propuestas
Navegación visual hacia objetivos
Quadrotors
Exploración autónoma
Planificador inteligente
Inferencia probabilística
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento propone un novedoso marco de navegación visual basado en un Modelo de Lenguaje Grande (LLM) para quadrotors en entornos desconocidos. Aprovechando el conocimiento semántico de los LLM, nuestro método permite la exploración autónoma basada en instrucciones en lenguaje natural. Diseñamos un planificador inteligente utilizando plantillas de aviso especializadas que opera en dos fases: primero, derivando secuencias de búsqueda global a través de inferencia probabilística; segundo, generando dinámicamente puntos de subobjetivo al fusionar observaciones visuales con priors estadísticos y métricas de relevancia de escena derivadas de LLM. El quadrotor luego ejecuta una búsqueda progresiva a través de algoritmos de planificación de rutas. Los resultados de simulación indican que nuestro método fusionado supera a las líneas base de modalidad única en aproximadamente un 20%. Además, los experimentos de vuelo físico demuestran tasas de éxito del 56% en escenarios de diseño cruzado y del 48% en escenarios de diseño en forma de T. Estos resultados, aunque reflejan los desafíos inherentes a la oclusión perceptual y la incertidumbre en la planificación, validan la viabilidad y el potencial del marco propuesto en aplicaciones del mundo real.
Descripción
Este documento propone un novedoso marco de navegación visual basado en un Modelo de Lenguaje Grande (LLM) para quadrotors en entornos desconocidos. Aprovechando el conocimiento semántico de los LLM, nuestro método permite la exploración autónoma basada en instrucciones en lenguaje natural. Diseñamos un planificador inteligente utilizando plantillas de aviso especializadas que opera en dos fases: primero, derivando secuencias de búsqueda global a través de inferencia probabilística; segundo, generando dinámicamente puntos de subobjetivo al fusionar observaciones visuales con priors estadísticos y métricas de relevancia de escena derivadas de LLM. El quadrotor luego ejecuta una búsqueda progresiva a través de algoritmos de planificación de rutas. Los resultados de simulación indican que nuestro método fusionado supera a las líneas base de modalidad única en aproximadamente un 20%. Además, los experimentos de vuelo físico demuestran tasas de éxito del 56% en escenarios de diseño cruzado y del 48% en escenarios de diseño en forma de T. Estos resultados, aunque reflejan los desafíos inherentes a la oclusión perceptual y la incertidumbre en la planificación, validan la viabilidad y el potencial del marco propuesto en aplicaciones del mundo real.