logo móvil
Contáctanos

Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida

Autores: Farkh, Rihem; Oudinet, Ghislain; Deleruyelle, Thibaut

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Introduce
Marco híbrido
Evasión de obstáculos
Sistemas robóticos integrados
Modelo de lenguaje grande
Toma de decisiones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
Este documento presenta un marco híbrido pionero que integra Q-learning/deep Q-network (DQN) con un gran modelo de lenguaje local (LLM) desplegado localmente para mejorar la evasión de obstáculos en sistemas robóticos integrados. El microcontrolador STM32WB55RG maneja la toma de decisiones en tiempo real utilizando datos de sensores, mientras que una computadora Raspberry Pi 5 ejecuta un LLM cuantificado TinyLlama para refinar dinámicamente estrategias de navegación. El LLM aborda limitaciones tradicionales del Q-learning, como la convergencia lenta y la poca adaptabilidad, mediante el análisis de historiales de acciones y la optimización de políticas de toma de decisiones en entornos complejos y dinámicos. Un mecanismo de activación selectiva garantiza una intervención eficiente del LLM, minimizando la sobrecarga computacional. Los resultados experimentales muestran mejoras significativas, incluido hasta un 41% de recuperación de bloqueo más alta (81% frente a 40% para Q-learning + LLM), hasta un 34% de tiempo más rápido para alcanzar el objetivo (38 s frente a 58 s para Q-learning + LLM) y hasta un 14% de tasas de colisión más bajas (11% frente a 25% para Q-learning + LLM) en comparación con Q-learning/DQN independiente. Este enfoque novedoso presenta una solución para la navegación adaptable y escalable en robótica integrada con recursos limitados, con posibles aplicaciones en logística y salud.

Otros recursos que podrían interesarte

Temas Virtualpro