Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida

Autores: Farkh, Rihem; Oudinet, Ghislain; Deleruyelle, Thibaut

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Evaluando un marco híbrido de aprendizaje por refuerzo LLM Q-Learning/DQN para evitar obstáculos de forma adaptativa en robótica embebida

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Introduce

Marco híbrido

Evasión de obstáculos

Sistemas robóticos integrados

Modelo de lenguaje grande

Toma de decisiones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones

Este documento presenta un marco híbrido pionero que integra Q-learning/deep Q-network (DQN) con un gran modelo de lenguaje local (LLM) desplegado localmente para mejorar la evasión de obstáculos en sistemas robóticos integrados. El microcontrolador STM32WB55RG maneja la toma de decisiones en tiempo real utilizando datos de sensores, mientras que una computadora Raspberry Pi 5 ejecuta un LLM cuantificado TinyLlama para refinar dinámicamente estrategias de navegación. El LLM aborda limitaciones tradicionales del Q-learning, como la convergencia lenta y la poca adaptabilidad, mediante el análisis de historiales de acciones y la optimización de políticas de toma de decisiones en entornos complejos y dinámicos. Un mecanismo de activación selectiva garantiza una intervención eficiente del LLM, minimizando la sobrecarga computacional. Los resultados experimentales muestran mejoras significativas, incluido hasta un 41% de recuperación de bloqueo más alta (81% frente a 40% para Q-learning + LLM), hasta un 34% de tiempo más rápido para alcanzar el objetivo (38 s frente a 58 s para Q-learning + LLM) y hasta un 14% de tasas de colisión más bajas (11% frente a 25% para Q-learning + LLM) en comparación con Q-learning/DQN independiente. Este enfoque novedoso presenta una solución para la navegación adaptable y escalable en robótica integrada con recursos limitados, con posibles aplicaciones en logística y salud.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro