Estrategia de Penetración de Aprendizaje por Imitación y Refuerzo para Vehículos Hipersónicos en la Fase de Planeo
Autores: Xu, Lei; Guan, Yingzi; Pu, Jialun; Wei, Changzhu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Estrategia de Penetración de Aprendizaje por Imitación y Refuerzo para Vehículos Hipersónicos en la Fase de Planeo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Mejorar
Capacidad de penetración
Vehículos hipersónicos
Aprendizaje por refuerzo
Aprendizaje por imitación
Proceso de Decisión de Markov
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
Para mejorar la capacidad de penetración de los vehículos hipersónicos en la fase de planeo, se propone una estrategia de penetración de maniobra inteligente que combina el aprendizaje por imitación y el aprendizaje por refuerzo. En primer lugar, se establece un modelo de penetración de aprendizaje por refuerzo para vehículos hipersónicos basado en el Proceso de Decisión de Markov (MDP), con el diseño de espacios de estado, acción y una función de recompensa compuesta basada en el Cero Esfuerzo de Fallo (ZEM). Además, para superar las dificultades en el entrenamiento de modelos de aprendizaje por refuerzo, se emplea un método de horizonte truncado para integrar el aprendizaje por refuerzo con el aprendizaje por imitación a nivel del objetivo de optimización. Esto resulta en la construcción de un modelo de aprendizaje de estrategia de penetración inteligente de Aprendizaje por Imitación de Horizonte Truncado y Crítico Suave (THIL-SAC), lo que permite una transición fluida de la imitación a la exploración. Finalmente, se introducen la modelación de recompensas y políticas de expertos para mejorar el proceso de entrenamiento. Los resultados de simulación demuestran que la estrategia THIL-SAC logra una convergencia más rápida en comparación con el método SAC estándar y supera las estrategias de expertos. Además, la estrategia THIL-SAC cumple con los requisitos de tiempo real para escenarios de penetración a alta velocidad, ofreciendo una mejor adaptabilidad y rendimiento de penetración.
Descripción
Para mejorar la capacidad de penetración de los vehículos hipersónicos en la fase de planeo, se propone una estrategia de penetración de maniobra inteligente que combina el aprendizaje por imitación y el aprendizaje por refuerzo. En primer lugar, se establece un modelo de penetración de aprendizaje por refuerzo para vehículos hipersónicos basado en el Proceso de Decisión de Markov (MDP), con el diseño de espacios de estado, acción y una función de recompensa compuesta basada en el Cero Esfuerzo de Fallo (ZEM). Además, para superar las dificultades en el entrenamiento de modelos de aprendizaje por refuerzo, se emplea un método de horizonte truncado para integrar el aprendizaje por refuerzo con el aprendizaje por imitación a nivel del objetivo de optimización. Esto resulta en la construcción de un modelo de aprendizaje de estrategia de penetración inteligente de Aprendizaje por Imitación de Horizonte Truncado y Crítico Suave (THIL-SAC), lo que permite una transición fluida de la imitación a la exploración. Finalmente, se introducen la modelación de recompensas y políticas de expertos para mejorar el proceso de entrenamiento. Los resultados de simulación demuestran que la estrategia THIL-SAC logra una convergencia más rápida en comparación con el método SAC estándar y supera las estrategias de expertos. Además, la estrategia THIL-SAC cumple con los requisitos de tiempo real para escenarios de penetración a alta velocidad, ofreciendo una mejor adaptabilidad y rendimiento de penetración.