logo móvil
Contáctanos

Exploración de Marte: Investigación sobre el algoritmo de exploración autónoma de escenas DQN jerárquico impulsado por objetivos

Autores: Zhou, Zhiguo; Chen, Ying; Yu, Jiabao; Zu, Bowen; Wang, Qian; Zhou, Xuehua; Duan, Junwei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Exploración de Marte: Investigación sobre el algoritmo de exploración autónoma de escenas DQN jerárquico impulsado por objetivos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Aprendizaje por refuerzo
Algoritmo de aprendizaje profundo en capas
Red Q profunda en capas orientada a objetivos
Robots móviles
Evitación de obstáculos
Ejecución jerárquica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
En el entorno de navegación no determinista y a gran escala bajo la misión de exploración de Marte, hay un amplio espacio para la acción y muchos estados ambientales. Los algoritmos tradicionales de aprendizaje por refuerzo que solo pueden obtener recompensas en puntos de destino y obstáculos se enfrentarán a los problemas de escasez de recompensas y explosión dimensional, lo que hace que la velocidad de entrenamiento sea demasiado lenta o incluso imposible. Este trabajo propone un algoritmo de aprendizaje profundo en capas basado en la red neuronal profunda Q en capas impulsada por objetivos (GDH-DQN), que es más adecuado para que los robots móviles exploren, naveguen y eviten obstáculos sin un mapa. El modelo del algoritmo está diseñado en dos capas. La capa inferior proporciona estrategias de comportamiento para lograr objetivos a corto plazo, y la capa superior proporciona estrategias de selección para múltiples objetivos a corto plazo. Se utilizan nodos de posición conocidos como objetivos a corto plazo para guiar al robot móvil hacia adelante y lograr objetivos a largo plazo de evitación de obstáculos. La ejecución jerárquica no solo simplifica las tareas, sino que también resuelve de manera efectiva los problemas de escasez de recompensas y explosión dimensional. Además, cada capa del algoritmo integra un mecanismo de Repetición de Experiencia Retrospectiva para mejorar el rendimiento, aprovechar al máximo la función impulsada por objetivos del nodo y evitar efectivamente la posibilidad de desorientar al agente mediante procesos complejos y puntos ciegos en el diseño de la función de recompensa. El agente ajusta el número de capas del modelo según el número de objetivos a corto plazo, mejorando aún más la eficiencia y adaptabilidad del algoritmo. Los resultados experimentales muestran que, en comparación con el método DQN jerárquico, la tasa de éxito de navegación del algoritmo GDH-DQN mejora significativamente y es más adecuado para escenarios desconocidos como la exploración de Marte.

Otros recursos que podrían interesarte

Temas Virtualpro