Un marco de DRL para la persecución y evasión autónoma: de escenarios de múltiples naves espaciales a escenarios de múltiples drones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un marco de DRL para la persecución y evasión autónoma: de escenarios de múltiples naves espaciales a escenarios de múltiples drones

Autores: Xu, Zhenyang; Shao, Shuyi; Han, Zengliang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un marco de DRL para la persecución y evasión autónoma: de escenarios de múltiples naves espaciales a escenarios de múltiples drones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Persecución y evasión autónoma

Aeroespacial

Aprendizaje profundo por refuerzo

Aprendizaje por currículos

Recompensa basada en predicciones transferibles

Robustez

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Para abordar los desafíos de la persecución y evasión autónoma en el espacio aéreo, particularmente en la consecución de la generalizabilidad entre dominios y el manejo de complejas restricciones terminales, este documento propone un marco de aprendizaje por refuerzo profundo (DRL) generalizable. El núcleo del método es una arquitectura de Optimización de Políticas Proximales (PPO) de auto-juego mejorada por dos innovaciones clave. Primero, se emplea una estrategia de aprendizaje curricular (CL) agnóstica a la dinámica para acelerar el entrenamiento y mejorar la robustez de la política al estructurar el proceso de aprendizaje de simple a complejo. En segundo lugar, se diseña una función de recompensa basada en predicciones transferibles para proporcionar una guía densa y prospectiva, utilizando la proyección del estado futuro para satisfacer de manera efectiva las condiciones terminales específicas de la misión. Se realizaron simulaciones exhaustivas en escenarios de múltiples naves espaciales y múltiples drones. En la validación principal de naves espaciales, el método propuesto logró una tasa de éxito del 90.7%, superando significativamente a algoritmos de referencia como el PPO tradicional y el Soft Actor-Critic (SAC). Además, demostró una robustez superior, con una caída de rendimiento de solo el 8.3% bajo perturbaciones estocásticas, en contraste con la degradación de más del 18% observada en los métodos de referencia. La aplicación exitosa en un escenario de múltiples drones, incluyendo un entorno rico en obstáculos, confirma el potencial del marco como una solución unificada y robusta para diversos sistemas adversariales autónomos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro