Una estrategia de penetración de guiado y maniobra con múltiples restricciones a través del aprendizaje profundo por refuerzo meta
Autores: Zhao, Sibo; Zhu, Jianwen; Bao, Weimin; Li, Xiaoping; Sun, Haifeng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una estrategia de penetración de guiado y maniobra con múltiples restricciones a través del aprendizaje profundo por refuerzo meta
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Estrategia de control inteligente propuesta
Aprendizaje profundo por refuerzo
Control óptimo
Maniobra de escape
Meta-aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En respuesta al problema de la guía de escape de UAV, este estudio propuso una estrategia de control inteligente unificada que sintetiza la guía óptima y el aprendizaje profundo por refuerzo meta (DRL). Se introdujo un control óptimo con un consumo de energía mínimo para cumplir con la latitud, longitud y altitud terminales. La maniobra de escape se realizó añadiendo sobrecargas de maniobra longitudinal y lateral. El modelo de decisión de comando de maniobra se calcula en base a redes de crítico suave (SAC). Se introdujo el meta-aprendizaje para mejorar la capacidad de escape autónoma, lo que mejora el rendimiento de las aplicaciones en escenarios variables en el tiempo no encontrados en el proceso de entrenamiento. Para obtener muestras de entrenamiento a una velocidad más rápida, este estudio utilizó el método de predicción para resolver los valores de recompensa, evitando una gran cantidad de integraciones numéricas. Los resultados de la simulación demostraron que la estrategia inteligente propuesta puede lograr una guía altamente precisa y un escape efectivo.
Descripción
En respuesta al problema de la guía de escape de UAV, este estudio propuso una estrategia de control inteligente unificada que sintetiza la guía óptima y el aprendizaje profundo por refuerzo meta (DRL). Se introdujo un control óptimo con un consumo de energía mínimo para cumplir con la latitud, longitud y altitud terminales. La maniobra de escape se realizó añadiendo sobrecargas de maniobra longitudinal y lateral. El modelo de decisión de comando de maniobra se calcula en base a redes de crítico suave (SAC). Se introdujo el meta-aprendizaje para mejorar la capacidad de escape autónoma, lo que mejora el rendimiento de las aplicaciones en escenarios variables en el tiempo no encontrados en el proceso de entrenamiento. Para obtener muestras de entrenamiento a una velocidad más rápida, este estudio utilizó el método de predicción para resolver los valores de recompensa, evitando una gran cantidad de integraciones numéricas. Los resultados de la simulación demostraron que la estrategia inteligente propuesta puede lograr una guía altamente precisa y un escape efectivo.