De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados

Autores: Olaiya, Kelvin; Delnevo, Giovanni; Lam, Chan-Tong; Pau, Giovanni; Salomoni, Paola

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

De Prompts a Caminos: Modelos de Lenguaje Grande para la Planificación Zero-Shot en Simulación de Vehículos Terrestres No Tripulados

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Modelos de lenguaje grandes

Razonamiento multimodal

Vehículos terrestres no tripulados

Planificación adaptativa

Razonamiento semántico

Planificación espacial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento explora la capacidad de los Modelos de Lenguaje Grande (LLMs) para realizar planificación de cero disparos a través del razonamiento multimodal, con un énfasis particular en las aplicaciones a Vehículos Terrestres No Tripulados (UGVs) y plataformas no tripuladas en general. Presentamos una arquitectura de sistema modular que integra un LLM de propósito general con entradas visuales y espaciales para la planificación adaptativa que guía iterativamente el comportamiento de los UGV. Aunque el marco se demuestra en un entorno terrestre, se extiende directamente a otros sistemas no tripulados, donde el razonamiento semántico y la planificación adaptativa son cada vez más críticos para la ejecución autónoma de misiones. Para evaluar el rendimiento, empleamos una métrica de evaluación continua que considera conjuntamente la distancia y la orientación, ofreciendo una alternativa más informativa y detallada a las medidas de éxito binarias. Evaluamos un LLM fundamental (es decir, Gemini 2.0 Flash, Google DeepMind) en un conjunto de tareas de navegación y exploración de cero disparos en entornos simulados. A diferencia de los sistemas LLM-robot anteriores que dependen de ajustes finos o políticas de puntos de referencia aprendidas, evaluamos un planificador LLM puramente de cero disparos y por pasos que no recibe demostraciones de tareas y razona solo a partir de los datos percibidos. Nuestros hallazgos muestran que los LLM exhiben signos alentadores de planificación espacial dirigida a objetivos y de finalización parcial de tareas, incluso en un entorno de cero disparos. Sin embargo, las inconsistencias en la generación de planes entre modelos destacan la necesidad de adaptación o ajuste fino específico para la tarea. Estos hallazgos resaltan el potencial del razonamiento multimodal basado en LLM para mejorar la autonomía en la navegación de UGV y drones, uniendo la comprensión semántica de alto nivel con una planificación espacial robusta.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro