Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos

Autores: Liu, Yiyang; Yan, Shuaihua; Zhao, Yang; Song, Chunhe; Li, Fei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Dyna-Q Mejorado: Un Método de Aprendizaje por Refuerzo Enfocado a través de un Grafo Heurístico para la Planificación de Rutas de AGV en Entornos Dinámicos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Planificación de rutas de AGV

Algoritmo Dyna-Q

Entornos dinámicos

Función de recompensa escasa

Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Dyna-Q es un método de aprendizaje por refuerzo ampliamente utilizado en la planificación de rutas de AGV. Sin embargo, en entornos dinámicos grandes y complejos, debido a la función de recompensa escasa de Dyna-Q y al gran espacio de búsqueda, este método presenta problemas de baja eficiencia de búsqueda, velocidad de convergencia lenta e incluso incapacidad para converger, lo que reduce seriamente su rendimiento y practicidad. Para resolver estos problemas, este artículo propone un algoritmo Dyna-Q mejorado para la planificación de rutas de AGV en entornos dinámicos grandes y complejos. Primero, para abordar el problema del gran espacio de búsqueda, este artículo propone un mecanismo de guía de ruta global basado en un grafo heurístico, que puede reducir efectivamente el espacio de búsqueda de rutas y, por lo tanto, mejorar la eficiencia para obtener la ruta óptima. En segundo lugar, para resolver el problema de la función de recompensa escasa en Dyna-Q, este artículo propone una nueva función de recompensa dinámica y un método de selección de acciones basado en el grafo heurístico, que puede proporcionar retroalimentación más intensa y decisiones de acción más eficientes para la planificación de rutas de AGV, mejorando efectivamente la convergencia del algoritmo. Evaluamos nuestro enfoque en escenarios con obstáculos estáticos y dinámicos. Los resultados experimentales muestran que el algoritmo propuesto puede obtener mejores rutas de manera más eficiente que otros métodos basados en aprendizaje por refuerzo, incluidos los algoritmos clásicos Q-Learning y Dyna-Q.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro