Flujos de trabajo agentivos para mejorar el razonamiento de modelos de lenguaje grandes en la planificación centrada en objetos robóticos
Autores: Moncada-Ramirez, Jesus; Matez-Bandera, Jose-Luis; Gonzalez-Jimenez, Javier; Ruiz-Sarmiento, Jose-Raul
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Flujos de trabajo agentivos para mejorar el razonamiento de modelos de lenguaje grandes en la planificación centrada en objetos robóticos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Modelos de lenguaje grandes
Capacidades cognitivas
Mapas semánticos
Alucinaciones
Flujos de trabajo agentivos
Planificación centrada en objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Los Modelos de Lenguaje Grande (LLMs) proporcionan capacidades cognitivas que permiten a los robots interpretar y razonar sobre su espacio de trabajo, especialmente cuando se combinan con representaciones semánticamente ricas como los mapas semánticos. Sin embargo, estos modelos son propensos a generar respuestas inexactas o inventadas, conocidas como alucinaciones, que pueden producir una operación robótica errática. Esto se puede abordar empleando flujos de trabajo agentivos, procesos estructurados que guían y refinan la salida del modelo para mejorar la calidad de la respuesta. Este trabajo define formalmente y analiza cualitativamente el impacto de tres flujos de trabajo agentivos (Ensemble de LLM, Auto-reflexión y Reflexión Multi-Agente) en la mejora de las capacidades de razonamiento de un LLM que guía a un sistema robótico para realizar planificación centrada en objetos. En este contexto, se proporciona al LLM un mapa semántico preconstruido del entorno y una consulta, a la que debe responder determinando los objetos más relevantes para la consulta. Esta respuesta se puede utilizar en una multitud de tareas posteriores. Se llevaron a cabo extensos experimentos empleando LLMs de última generación y mapas semánticos generados a partir de los conjuntos de datos ampliamente utilizados ScanNet y SceneNN. Los resultados muestran que los flujos de trabajo agentivos mejoran significativamente el rendimiento de recuperación de objetos, especialmente en escenarios que requieren razonamiento complejo, con mejoras que promedian hasta un 10% sobre la línea base.
Descripción
Los Modelos de Lenguaje Grande (LLMs) proporcionan capacidades cognitivas que permiten a los robots interpretar y razonar sobre su espacio de trabajo, especialmente cuando se combinan con representaciones semánticamente ricas como los mapas semánticos. Sin embargo, estos modelos son propensos a generar respuestas inexactas o inventadas, conocidas como alucinaciones, que pueden producir una operación robótica errática. Esto se puede abordar empleando flujos de trabajo agentivos, procesos estructurados que guían y refinan la salida del modelo para mejorar la calidad de la respuesta. Este trabajo define formalmente y analiza cualitativamente el impacto de tres flujos de trabajo agentivos (Ensemble de LLM, Auto-reflexión y Reflexión Multi-Agente) en la mejora de las capacidades de razonamiento de un LLM que guía a un sistema robótico para realizar planificación centrada en objetos. En este contexto, se proporciona al LLM un mapa semántico preconstruido del entorno y una consulta, a la que debe responder determinando los objetos más relevantes para la consulta. Esta respuesta se puede utilizar en una multitud de tareas posteriores. Se llevaron a cabo extensos experimentos empleando LLMs de última generación y mapas semánticos generados a partir de los conjuntos de datos ampliamente utilizados ScanNet y SceneNN. Los resultados muestran que los flujos de trabajo agentivos mejoran significativamente el rendimiento de recuperación de objetos, especialmente en escenarios que requieren razonamiento complejo, con mejoras que promedian hasta un 10% sobre la línea base.