Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos
Autores: Liu, Yiyang; Yan, Shuaihua; Zhao, Yang; Song, Chunhe; Li, Fei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Planificación de rutas de AGV
Algoritmo Dyna-Q
Entornos dinámicos
Función de recompensa escasa
Velocidad de convergencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Dyna-Q es un método de aprendizaje por refuerzo ampliamente utilizado en la planificación de rutas de AGV. Sin embargo, en entornos dinámicos grandes y complejos, debido a la función de recompensa escasa de Dyna-Q y al gran espacio de búsqueda, este método presenta problemas de baja eficiencia de búsqueda, velocidad de convergencia lenta e incluso incapacidad para converger, lo que reduce seriamente su rendimiento y practicidad. Para resolver estos problemas, este artículo propone un algoritmo Dyna-Q mejorado para la planificación de rutas de AGV en entornos dinámicos grandes y complejos. Primero, para abordar el problema del gran espacio de búsqueda, este artículo propone un mecanismo de guía de ruta global basado en un grafo heurístico, que puede reducir efectivamente el espacio de búsqueda de rutas y, por lo tanto, mejorar la eficiencia para obtener la ruta óptima. En segundo lugar, para resolver el problema de la función de recompensa escasa en Dyna-Q, este artículo propone una nueva función de recompensa dinámica y un método de selección de acciones basado en el grafo heurístico, que puede proporcionar retroalimentación más intensa y decisiones de acción más eficientes para la planificación de rutas de AGV, mejorando efectivamente la convergencia del algoritmo. Evaluamos nuestro enfoque en escenarios con obstáculos estáticos y dinámicos. Los resultados experimentales muestran que el algoritmo propuesto puede obtener mejores rutas de manera más eficiente que otros métodos basados en aprendizaje por refuerzo, incluidos los algoritmos clásicos Q-Learning y Dyna-Q.
Descripción
Dyna-Q es un método de aprendizaje por refuerzo ampliamente utilizado en la planificación de rutas de AGV. Sin embargo, en entornos dinámicos grandes y complejos, debido a la función de recompensa escasa de Dyna-Q y al gran espacio de búsqueda, este método presenta problemas de baja eficiencia de búsqueda, velocidad de convergencia lenta e incluso incapacidad para converger, lo que reduce seriamente su rendimiento y practicidad. Para resolver estos problemas, este artículo propone un algoritmo Dyna-Q mejorado para la planificación de rutas de AGV en entornos dinámicos grandes y complejos. Primero, para abordar el problema del gran espacio de búsqueda, este artículo propone un mecanismo de guía de ruta global basado en un grafo heurístico, que puede reducir efectivamente el espacio de búsqueda de rutas y, por lo tanto, mejorar la eficiencia para obtener la ruta óptima. En segundo lugar, para resolver el problema de la función de recompensa escasa en Dyna-Q, este artículo propone una nueva función de recompensa dinámica y un método de selección de acciones basado en el grafo heurístico, que puede proporcionar retroalimentación más intensa y decisiones de acción más eficientes para la planificación de rutas de AGV, mejorando efectivamente la convergencia del algoritmo. Evaluamos nuestro enfoque en escenarios con obstáculos estáticos y dinámicos. Los resultados experimentales muestran que el algoritmo propuesto puede obtener mejores rutas de manera más eficiente que otros métodos basados en aprendizaje por refuerzo, incluidos los algoritmos clásicos Q-Learning y Dyna-Q.