Exploración de Marte: Investigación sobre el algoritmo de exploración autónoma de escenas DQN jerárquico impulsado por objetivos
Autores: Zhou, Zhiguo; Chen, Ying; Yu, Jiabao; Zu, Bowen; Wang, Qian; Zhou, Xuehua; Duan, Junwei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Exploración de Marte: Investigación sobre el algoritmo de exploración autónoma de escenas DQN jerárquico impulsado por objetivos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Aprendizaje por refuerzo
Algoritmo de aprendizaje profundo en capas
Red Q profunda en capas orientada a objetivos
Robots móviles
Evitación de obstáculos
Ejecución jerárquica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En el entorno de navegación no determinista y a gran escala bajo la misión de exploración de Marte, hay un amplio espacio para la acción y muchos estados ambientales. Los algoritmos tradicionales de aprendizaje por refuerzo que solo pueden obtener recompensas en puntos de destino y obstáculos se enfrentarán a los problemas de escasez de recompensas y explosión dimensional, lo que hace que la velocidad de entrenamiento sea demasiado lenta o incluso imposible. Este trabajo propone un algoritmo de aprendizaje profundo en capas basado en la red neuronal profunda Q en capas impulsada por objetivos (GDH-DQN), que es más adecuado para que los robots móviles exploren, naveguen y eviten obstáculos sin un mapa. El modelo del algoritmo está diseñado en dos capas. La capa inferior proporciona estrategias de comportamiento para lograr objetivos a corto plazo, y la capa superior proporciona estrategias de selección para múltiples objetivos a corto plazo. Se utilizan nodos de posición conocidos como objetivos a corto plazo para guiar al robot móvil hacia adelante y lograr objetivos a largo plazo de evitación de obstáculos. La ejecución jerárquica no solo simplifica las tareas, sino que también resuelve de manera efectiva los problemas de escasez de recompensas y explosión dimensional. Además, cada capa del algoritmo integra un mecanismo de Repetición de Experiencia Retrospectiva para mejorar el rendimiento, aprovechar al máximo la función impulsada por objetivos del nodo y evitar efectivamente la posibilidad de desorientar al agente mediante procesos complejos y puntos ciegos en el diseño de la función de recompensa. El agente ajusta el número de capas del modelo según el número de objetivos a corto plazo, mejorando aún más la eficiencia y adaptabilidad del algoritmo. Los resultados experimentales muestran que, en comparación con el método DQN jerárquico, la tasa de éxito de navegación del algoritmo GDH-DQN mejora significativamente y es más adecuado para escenarios desconocidos como la exploración de Marte.
Descripción
En el entorno de navegación no determinista y a gran escala bajo la misión de exploración de Marte, hay un amplio espacio para la acción y muchos estados ambientales. Los algoritmos tradicionales de aprendizaje por refuerzo que solo pueden obtener recompensas en puntos de destino y obstáculos se enfrentarán a los problemas de escasez de recompensas y explosión dimensional, lo que hace que la velocidad de entrenamiento sea demasiado lenta o incluso imposible. Este trabajo propone un algoritmo de aprendizaje profundo en capas basado en la red neuronal profunda Q en capas impulsada por objetivos (GDH-DQN), que es más adecuado para que los robots móviles exploren, naveguen y eviten obstáculos sin un mapa. El modelo del algoritmo está diseñado en dos capas. La capa inferior proporciona estrategias de comportamiento para lograr objetivos a corto plazo, y la capa superior proporciona estrategias de selección para múltiples objetivos a corto plazo. Se utilizan nodos de posición conocidos como objetivos a corto plazo para guiar al robot móvil hacia adelante y lograr objetivos a largo plazo de evitación de obstáculos. La ejecución jerárquica no solo simplifica las tareas, sino que también resuelve de manera efectiva los problemas de escasez de recompensas y explosión dimensional. Además, cada capa del algoritmo integra un mecanismo de Repetición de Experiencia Retrospectiva para mejorar el rendimiento, aprovechar al máximo la función impulsada por objetivos del nodo y evitar efectivamente la posibilidad de desorientar al agente mediante procesos complejos y puntos ciegos en el diseño de la función de recompensa. El agente ajusta el número de capas del modelo según el número de objetivos a corto plazo, mejorando aún más la eficiencia y adaptabilidad del algoritmo. Los resultados experimentales muestran que, en comparación con el método DQN jerárquico, la tasa de éxito de navegación del algoritmo GDH-DQN mejora significativamente y es más adecuado para escenarios desconocidos como la exploración de Marte.