Una estrategia de guía cooperativa basada en aprendizaje por refuerzo profundo bajo condiciones de velocidad incontrolable
Autores: Cui, Hao; Zhang, Ke; Tan, Minghu; Wang, Jingyu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una estrategia de guía cooperativa basada en aprendizaje por refuerzo profundo bajo condiciones de velocidad incontrolable
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Enfoque
Estrategia de orientación cooperativa
Aprendizaje profundo por refuerzo
Optimización de políticas proximales multiagente
Función de recompensa
Aprendizaje por currículos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Presentamos un enfoque novedoso para generar una estrategia de guía cooperativa utilizando aprendizaje por refuerzo profundo para abordar el desafío de los ataques cooperativos de múltiples misiles bajo condiciones de velocidad incontrolable. Este método emplea el algoritmo de optimización de políticas proximales para múltiples agentes (MAPPO) para construir un marco de espacio de acción continua para la guía cooperativa inteligente. Se diseña una función de recompensa reconfigurada heurísticamente para mejorar la guía cooperativa entre los agentes, permitiendo un compromiso efectivo con el objetivo mientras se mitiga la baja eficiencia de aprendizaje causada por señales de recompensa escasas en el entorno de guía. Además, se introduce un enfoque de aprendizaje curricular en múltiples etapas para suavizar las acciones de los agentes, reduciendo efectivamente las oscilaciones de acción que surgen del muestreo independiente en el aprendizaje por refuerzo. Los resultados de la simulación demuestran que la ley de guía basada en aprendizaje por refuerzo profundo propuesta puede lograr con éxito ataques cooperativos en una variedad de condiciones iniciales aleatorias.
Descripción
Presentamos un enfoque novedoso para generar una estrategia de guía cooperativa utilizando aprendizaje por refuerzo profundo para abordar el desafío de los ataques cooperativos de múltiples misiles bajo condiciones de velocidad incontrolable. Este método emplea el algoritmo de optimización de políticas proximales para múltiples agentes (MAPPO) para construir un marco de espacio de acción continua para la guía cooperativa inteligente. Se diseña una función de recompensa reconfigurada heurísticamente para mejorar la guía cooperativa entre los agentes, permitiendo un compromiso efectivo con el objetivo mientras se mitiga la baja eficiencia de aprendizaje causada por señales de recompensa escasas en el entorno de guía. Además, se introduce un enfoque de aprendizaje curricular en múltiples etapas para suavizar las acciones de los agentes, reduciendo efectivamente las oscilaciones de acción que surgen del muestreo independiente en el aprendizaje por refuerzo. Los resultados de la simulación demuestran que la ley de guía basada en aprendizaje por refuerzo profundo propuesta puede lograr con éxito ataques cooperativos en una variedad de condiciones iniciales aleatorias.