logo móvil
Contáctanos

De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados

Autores: Olaiya, Kelvin; Delnevo, Giovanni; Lam, Chan-Tong; Pau, Giovanni; Salomoni, Paola

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Modelos de lenguaje grandes
Razonamiento multimodal
Vehículos terrestres no tripulados
Planificación adaptativa
Razonamiento semántico
Planificación espacial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento explora la capacidad de los Modelos de Lenguaje Grande (LLMs) para realizar planificación de cero disparos a través del razonamiento multimodal, con un énfasis particular en las aplicaciones a Vehículos Terrestres No Tripulados (UGVs) y plataformas no tripuladas en general. Presentamos una arquitectura de sistema modular que integra un LLM de propósito general con entradas visuales y espaciales para la planificación adaptativa que guía iterativamente el comportamiento de los UGV. Aunque el marco se demuestra en un entorno terrestre, se extiende directamente a otros sistemas no tripulados, donde el razonamiento semántico y la planificación adaptativa son cada vez más críticos para la ejecución autónoma de misiones. Para evaluar el rendimiento, empleamos una métrica de evaluación continua que considera conjuntamente la distancia y la orientación, ofreciendo una alternativa más informativa y detallada a las medidas de éxito binarias. Evaluamos un LLM fundamental (es decir, Gemini 2.0 Flash, Google DeepMind) en un conjunto de tareas de navegación y exploración de cero disparos en entornos simulados. A diferencia de los sistemas LLM-robot anteriores que dependen de ajustes finos o políticas de puntos de referencia aprendidas, evaluamos un planificador LLM puramente de cero disparos y por pasos que no recibe demostraciones de tareas y razona solo a partir de los datos percibidos. Nuestros hallazgos muestran que los LLM exhiben signos alentadores de planificación espacial dirigida a objetivos y de finalización parcial de tareas, incluso en un entorno de cero disparos. Sin embargo, las inconsistencias en la generación de planes entre modelos destacan la necesidad de adaptación o ajuste fino específico para la tarea. Estos hallazgos resaltan el potencial del razonamiento multimodal basado en LLM para mejorar la autonomía en la navegación de UGV y drones, uniendo la comprensión semántica de alto nivel con una planificación espacial robusta.

Otros recursos que podrían interesarte

Temas Virtualpro