Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida
Autores: Farkh, Rihem; Oudinet, Ghislain; Deleruyelle, Thibaut
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Introduce
Marco híbrido
Evasión de obstáculos
Sistemas robóticos integrados
Modelo de lenguaje grande
Toma de decisiones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Este documento presenta un marco híbrido pionero que integra Q-learning/deep Q-network (DQN) con un gran modelo de lenguaje local (LLM) desplegado localmente para mejorar la evasión de obstáculos en sistemas robóticos integrados. El microcontrolador STM32WB55RG maneja la toma de decisiones en tiempo real utilizando datos de sensores, mientras que una computadora Raspberry Pi 5 ejecuta un LLM cuantificado TinyLlama para refinar dinámicamente estrategias de navegación. El LLM aborda limitaciones tradicionales del Q-learning, como la convergencia lenta y la poca adaptabilidad, mediante el análisis de historiales de acciones y la optimización de políticas de toma de decisiones en entornos complejos y dinámicos. Un mecanismo de activación selectiva garantiza una intervención eficiente del LLM, minimizando la sobrecarga computacional. Los resultados experimentales muestran mejoras significativas, incluido hasta un 41% de recuperación de bloqueo más alta (81% frente a 40% para Q-learning + LLM), hasta un 34% de tiempo más rápido para alcanzar el objetivo (38 s frente a 58 s para Q-learning + LLM) y hasta un 14% de tasas de colisión más bajas (11% frente a 25% para Q-learning + LLM) en comparación con Q-learning/DQN independiente. Este enfoque novedoso presenta una solución para la navegación adaptable y escalable en robótica integrada con recursos limitados, con posibles aplicaciones en logística y salud.
Descripción
Este documento presenta un marco híbrido pionero que integra Q-learning/deep Q-network (DQN) con un gran modelo de lenguaje local (LLM) desplegado localmente para mejorar la evasión de obstáculos en sistemas robóticos integrados. El microcontrolador STM32WB55RG maneja la toma de decisiones en tiempo real utilizando datos de sensores, mientras que una computadora Raspberry Pi 5 ejecuta un LLM cuantificado TinyLlama para refinar dinámicamente estrategias de navegación. El LLM aborda limitaciones tradicionales del Q-learning, como la convergencia lenta y la poca adaptabilidad, mediante el análisis de historiales de acciones y la optimización de políticas de toma de decisiones en entornos complejos y dinámicos. Un mecanismo de activación selectiva garantiza una intervención eficiente del LLM, minimizando la sobrecarga computacional. Los resultados experimentales muestran mejoras significativas, incluido hasta un 41% de recuperación de bloqueo más alta (81% frente a 40% para Q-learning + LLM), hasta un 34% de tiempo más rápido para alcanzar el objetivo (38 s frente a 58 s para Q-learning + LLM) y hasta un 14% de tasas de colisión más bajas (11% frente a 25% para Q-learning + LLM) en comparación con Q-learning/DQN independiente. Este enfoque novedoso presenta una solución para la navegación adaptable y escalable en robótica integrada con recursos limitados, con posibles aplicaciones en logística y salud.