logo móvil
Contáctanos

Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos

Autores: Liu, Yiyang; Yan, Shuaihua; Zhao, Yang; Song, Chunhe; Li, Fei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Planificación de rutas de AGV
Algoritmo Dyna-Q
Entornos dinámicos
Función de recompensa escasa
Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Dyna-Q es un método de aprendizaje por refuerzo ampliamente utilizado en la planificación de rutas de AGV. Sin embargo, en entornos dinámicos grandes y complejos, debido a la función de recompensa escasa de Dyna-Q y al gran espacio de búsqueda, este método presenta problemas de baja eficiencia de búsqueda, velocidad de convergencia lenta e incluso incapacidad para converger, lo que reduce seriamente su rendimiento y practicidad. Para resolver estos problemas, este artículo propone un algoritmo Dyna-Q mejorado para la planificación de rutas de AGV en entornos dinámicos grandes y complejos. Primero, para abordar el problema del gran espacio de búsqueda, este artículo propone un mecanismo de guía de ruta global basado en un grafo heurístico, que puede reducir efectivamente el espacio de búsqueda de rutas y, por lo tanto, mejorar la eficiencia para obtener la ruta óptima. En segundo lugar, para resolver el problema de la función de recompensa escasa en Dyna-Q, este artículo propone una nueva función de recompensa dinámica y un método de selección de acciones basado en el grafo heurístico, que puede proporcionar retroalimentación más intensa y decisiones de acción más eficientes para la planificación de rutas de AGV, mejorando efectivamente la convergencia del algoritmo. Evaluamos nuestro enfoque en escenarios con obstáculos estáticos y dinámicos. Los resultados experimentales muestran que el algoritmo propuesto puede obtener mejores rutas de manera más eficiente que otros métodos basados en aprendizaje por refuerzo, incluidos los algoritmos clásicos Q-Learning y Dyna-Q.

Otros recursos que podrían interesarte

Temas Virtualpro