De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados
Autores: Olaiya, Kelvin; Delnevo, Giovanni; Lam, Chan-Tong; Pau, Giovanni; Salomoni, Paola
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Modelos de lenguaje grandes
Razonamiento multimodal
Vehículos terrestres no tripulados
Planificación adaptativa
Razonamiento semántico
Planificación espacial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento explora la capacidad de los Modelos de Lenguaje Grande (LLMs) para realizar planificación de cero disparos a través del razonamiento multimodal, con un énfasis particular en las aplicaciones a Vehículos Terrestres No Tripulados (UGVs) y plataformas no tripuladas en general. Presentamos una arquitectura de sistema modular que integra un LLM de propósito general con entradas visuales y espaciales para la planificación adaptativa que guía iterativamente el comportamiento de los UGV. Aunque el marco se demuestra en un entorno terrestre, se extiende directamente a otros sistemas no tripulados, donde el razonamiento semántico y la planificación adaptativa son cada vez más críticos para la ejecución autónoma de misiones. Para evaluar el rendimiento, empleamos una métrica de evaluación continua que considera conjuntamente la distancia y la orientación, ofreciendo una alternativa más informativa y detallada a las medidas de éxito binarias. Evaluamos un LLM fundamental (es decir, Gemini 2.0 Flash, Google DeepMind) en un conjunto de tareas de navegación y exploración de cero disparos en entornos simulados. A diferencia de los sistemas LLM-robot anteriores que dependen de ajustes finos o políticas de puntos de referencia aprendidas, evaluamos un planificador LLM puramente de cero disparos y por pasos que no recibe demostraciones de tareas y razona solo a partir de los datos percibidos. Nuestros hallazgos muestran que los LLM exhiben signos alentadores de planificación espacial dirigida a objetivos y de finalización parcial de tareas, incluso en un entorno de cero disparos. Sin embargo, las inconsistencias en la generación de planes entre modelos destacan la necesidad de adaptación o ajuste fino específico para la tarea. Estos hallazgos resaltan el potencial del razonamiento multimodal basado en LLM para mejorar la autonomía en la navegación de UGV y drones, uniendo la comprensión semántica de alto nivel con una planificación espacial robusta.
Descripción
Este documento explora la capacidad de los Modelos de Lenguaje Grande (LLMs) para realizar planificación de cero disparos a través del razonamiento multimodal, con un énfasis particular en las aplicaciones a Vehículos Terrestres No Tripulados (UGVs) y plataformas no tripuladas en general. Presentamos una arquitectura de sistema modular que integra un LLM de propósito general con entradas visuales y espaciales para la planificación adaptativa que guía iterativamente el comportamiento de los UGV. Aunque el marco se demuestra en un entorno terrestre, se extiende directamente a otros sistemas no tripulados, donde el razonamiento semántico y la planificación adaptativa son cada vez más críticos para la ejecución autónoma de misiones. Para evaluar el rendimiento, empleamos una métrica de evaluación continua que considera conjuntamente la distancia y la orientación, ofreciendo una alternativa más informativa y detallada a las medidas de éxito binarias. Evaluamos un LLM fundamental (es decir, Gemini 2.0 Flash, Google DeepMind) en un conjunto de tareas de navegación y exploración de cero disparos en entornos simulados. A diferencia de los sistemas LLM-robot anteriores que dependen de ajustes finos o políticas de puntos de referencia aprendidas, evaluamos un planificador LLM puramente de cero disparos y por pasos que no recibe demostraciones de tareas y razona solo a partir de los datos percibidos. Nuestros hallazgos muestran que los LLM exhiben signos alentadores de planificación espacial dirigida a objetivos y de finalización parcial de tareas, incluso en un entorno de cero disparos. Sin embargo, las inconsistencias en la generación de planes entre modelos destacan la necesidad de adaptación o ajuste fino específico para la tarea. Estos hallazgos resaltan el potencial del razonamiento multimodal basado en LLM para mejorar la autonomía en la navegación de UGV y drones, uniendo la comprensión semántica de alto nivel con una planificación espacial robusta.