logo móvil
Contáctanos

Un marco de DRL para la persecución y evasión autónoma: de escenarios de múltiples naves espaciales a escenarios de múltiples drones

Autores: Xu, Zhenyang; Shao, Shuyi; Han, Zengliang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un marco de DRL para la persecución y evasión autónoma: de escenarios de múltiples naves espaciales a escenarios de múltiples drones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Persecución y evasión autónoma
Aeroespacial
Aprendizaje profundo por refuerzo
Aprendizaje por currículos
Recompensa basada en predicciones transferibles
Robustez

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para abordar los desafíos de la persecución y evasión autónoma en el espacio aéreo, particularmente en la consecución de la generalizabilidad entre dominios y el manejo de complejas restricciones terminales, este documento propone un marco de aprendizaje por refuerzo profundo (DRL) generalizable. El núcleo del método es una arquitectura de Optimización de Políticas Proximales (PPO) de auto-juego mejorada por dos innovaciones clave. Primero, se emplea una estrategia de aprendizaje curricular (CL) agnóstica a la dinámica para acelerar el entrenamiento y mejorar la robustez de la política al estructurar el proceso de aprendizaje de simple a complejo. En segundo lugar, se diseña una función de recompensa basada en predicciones transferibles para proporcionar una guía densa y prospectiva, utilizando la proyección del estado futuro para satisfacer de manera efectiva las condiciones terminales específicas de la misión. Se realizaron simulaciones exhaustivas en escenarios de múltiples naves espaciales y múltiples drones. En la validación principal de naves espaciales, el método propuesto logró una tasa de éxito del 90.7%, superando significativamente a algoritmos de referencia como el PPO tradicional y el Soft Actor-Critic (SAC). Además, demostró una robustez superior, con una caída de rendimiento de solo el 8.3% bajo perturbaciones estocásticas, en contraste con la degradación de más del 18% observada en los métodos de referencia. La aplicación exitosa en un escenario de múltiples drones, incluyendo un entorno rico en obstáculos, confirma el potencial del marco como una solución unificada y robusta para diversos sistemas adversariales autónomos.

Otros recursos que podrían interesarte

Temas Virtualpro