Planificación de caminos colaborativos para rovers lunares con un heurístico basado en campo potencial artificial en aprendizaje profundo por refuerzo
Autores: Lu, Siyao; Xu, Rui; Li, Zhaoyu; Wang, Bang; Zhao, Zhijun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Planificación de caminos colaborativos para rovers lunares con un heurístico basado en campo potencial artificial en aprendizaje profundo por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Estación de investigación lunar
Rovers lunares
Construcción
Aprendizaje por refuerzo profundo
Obstáculos
Planificación de rutas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La Estación Internacional de Investigación Lunar, que se establecerá alrededor de 2030, equipará a los rovers lunares con brazos robóticos como constructores. La construcción requiere suelo lunar y rovers lunares, para lo cual los rovers deben dirigirse hacia diferentes puntos de referencia sin encontrar obstáculos en un tiempo limitado debido al corto día, especialmente cerca del polo sur. Los métodos de planificación tradicionales, como cargar instrucciones desde la Tierra, apenas pueden manejar muchos rovers moviéndose en la luna simultáneamente con alta eficiencia. Por lo tanto, proponemos un nuevo método de planificación de rutas colaborativas basado en el aprendizaje profundo por refuerzo, donde las heurísticas son demostradas tanto por el objetivo como por los obstáculos en el campo potencial artificial. Se han generado entornos aleatorios donde se crean obstáculos pequeños y grandes y diferentes puntos de referencia para recolectar recursos, entrenar al agente de aprendizaje profundo por refuerzo para proponer acciones y guiar a los rovers a moverse sin obstáculos, completar las tareas de los rovers y alcanzar diferentes objetivos. El campo potencial artificial creado por los obstáculos y otros rovers en cada paso afecta la elección de acción del rover. La información del campo potencial artificial se transformaría en recompensas en el aprendizaje profundo por refuerzo que ayuda a mantener la distancia y la seguridad. Los experimentos demuestran que nuestro método puede guiar a los rovers a moverse de manera más segura sin chocar con grandes obstáculos cercanos o colisionar con otros rovers, así como consumir menos energía en comparación con el algoritmo de planificación de rutas A-Star de múltiples agentes con un método mejorado de evitación de obstáculos.
Descripción
La Estación Internacional de Investigación Lunar, que se establecerá alrededor de 2030, equipará a los rovers lunares con brazos robóticos como constructores. La construcción requiere suelo lunar y rovers lunares, para lo cual los rovers deben dirigirse hacia diferentes puntos de referencia sin encontrar obstáculos en un tiempo limitado debido al corto día, especialmente cerca del polo sur. Los métodos de planificación tradicionales, como cargar instrucciones desde la Tierra, apenas pueden manejar muchos rovers moviéndose en la luna simultáneamente con alta eficiencia. Por lo tanto, proponemos un nuevo método de planificación de rutas colaborativas basado en el aprendizaje profundo por refuerzo, donde las heurísticas son demostradas tanto por el objetivo como por los obstáculos en el campo potencial artificial. Se han generado entornos aleatorios donde se crean obstáculos pequeños y grandes y diferentes puntos de referencia para recolectar recursos, entrenar al agente de aprendizaje profundo por refuerzo para proponer acciones y guiar a los rovers a moverse sin obstáculos, completar las tareas de los rovers y alcanzar diferentes objetivos. El campo potencial artificial creado por los obstáculos y otros rovers en cada paso afecta la elección de acción del rover. La información del campo potencial artificial se transformaría en recompensas en el aprendizaje profundo por refuerzo que ayuda a mantener la distancia y la seguridad. Los experimentos demuestran que nuestro método puede guiar a los rovers a moverse de manera más segura sin chocar con grandes obstáculos cercanos o colisionar con otros rovers, así como consumir menos energía en comparación con el algoritmo de planificación de rutas A-Star de múltiples agentes con un método mejorado de evitación de obstáculos.