logo móvil
Contáctanos

Planificación de Trayectorias Espaciales con un Algoritmo General de Aprendizaje por Refuerzo

Autores: Forestieri, Andrea; Casalino, Lorenzo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Planificación de Trayectorias Espaciales con un Algoritmo General de Aprendizaje por Refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Planificación de trayectorias espaciales
Métodos de optimización
Algoritmo de aprendizaje por refuerzo
Espacios de acción híbridos
Búsqueda de Árbol de Monte Carlo
Red neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
La planificación de trayectorias espaciales es un problema combinatorio complejo que requiere seleccionar secuencias discretas de cuerpos celestes mientras se optimizan simultáneamente los parámetros de transferencia continuos. Los métodos de optimización tradicionales tienen dificultades con la creciente complejidad computacional a medida que aumenta el número de objetivos posibles. Este artículo presenta un nuevo algoritmo de aprendizaje por refuerzo, inspirado en AlphaZero, diseñado para manejar espacios de acción híbridos discretos y continuos sin depender de la discretización. El marco propuesto integra la Búsqueda de Árboles de Monte Carlo con una red neuronal para explorar y optimizar eficientemente las trayectorias espaciales. Aunque se desarrolló para la planificación de trayectorias espaciales, el algoritmo es ampliamente aplicable a cualquier problema que involucre espacios de acción híbridos. Aplicado al problema de la Competencia Global de Optimización de Trayectorias XI, el método logra un rendimiento competitivo, superando los resultados de vanguardia a pesar de los recursos computacionales limitados. Estos resultados destacan el potencial del aprendizaje por refuerzo para la planificación autónoma de misiones espaciales, ofreciendo una alternativa escalable y rentable a las técnicas tradicionales de optimización de trayectorias. Notablemente, todos los experimentos se realizaron en una sola estación de trabajo, demostrando la viabilidad del aprendizaje por refuerzo para la planificación práctica de misiones. Además, el enfoque de auto-juego utilizado en el entrenamiento sugiere que se podrían lograr soluciones aún más fuertes con recursos computacionales aumentados.

Otros recursos que podrían interesarte

Temas Virtualpro