Aprendizaje por Refuerzo Jerárquico con Generación Automática de Currículo para la Toma de Decisiones Tácticas de Vehículos Aéreos de Combate No Tripulados en Combate Aéreo Autónomo
Autores: Li, Yang; Dong, Wenhan; Zhang, Pin; Zhai, Hengang; Li, Guangqi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Jerárquico con Generación Automática de Currículo para la Toma de Decisiones Tácticas de Vehículos Aéreos de Combate No Tripulados en Combate Aéreo Autónomo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Estudio
Marco de aprendizaje por refuerzo jerárquico
UCAVs
Políticas tácticas
Marco MEOL
Redes Generativas Antagónicas de Wasserstein
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio propone un marco de aprendizaje por refuerzo jerárquico orientado a vehículos aéreos de combate no tripulados (UCAV) para abordar el desafío de la abstracción temporal en el combate aéreo autónomo dentro del rango visual (WVRAC) para UCAV. La incorporación de objetivos de máxima entropía dentro del marco MEOL facilita la optimización tanto del descubrimiento táctico autónomo de bajo nivel como de la selección de opciones de alto nivel. A bajo nivel, se diseñan tres políticas tácticas (tácticas de ángulo, instantánea y energía) con funciones de recompensa informadas por el conocimiento de expertos, mientras que la política de alto nivel termina dinámicamente las tácticas actuales y selecciona nuevas a través del aprendizaje de recompensas escasas, superando así las limitaciones de la ejecución táctica de duración fija. Además, se introduce un novedoso mecanismo de generación automática de currículos basado en Redes Generativas Antagónicas de Wasserstein (WGAN) para mejorar la eficiencia del entrenamiento y la adaptabilidad a diversas condiciones iniciales de combate. Experimentos extensivos realizados en simulaciones de combate aéreo de UCAV han demostrado que MEOL no solo logra tasas de victoria significativamente mejores que otras políticas al entrenar contra oponentes basados en reglas, sino que también MEOC logra resultados superiores en pruebas contra políticas tácticas intra-opción, así como otras políticas de aprendizaje de opciones. El marco facilita la terminación dinámica y el cambio de tácticas, abordando así las limitaciones de los métodos jerárquicos de duración fija. Los estudios de ablación confirman la efectividad de los currículos basados en WGAN para acelerar la convergencia de políticas. Además, el análisis visual de los registros de vuelo de los UCAV valida el proceso de toma de decisiones jerárquico aprendido, mostrando la interacción entre la selección táctica y la ejecución de maniobras. Esta investigación proporciona metodologías novedosas que combinan el aprendizaje por refuerzo jerárquico con el conocimiento del dominio táctico para la toma de decisiones autónoma de los UCAV en escenarios complejos de combate aéreo.
Descripción
Este estudio propone un marco de aprendizaje por refuerzo jerárquico orientado a vehículos aéreos de combate no tripulados (UCAV) para abordar el desafío de la abstracción temporal en el combate aéreo autónomo dentro del rango visual (WVRAC) para UCAV. La incorporación de objetivos de máxima entropía dentro del marco MEOL facilita la optimización tanto del descubrimiento táctico autónomo de bajo nivel como de la selección de opciones de alto nivel. A bajo nivel, se diseñan tres políticas tácticas (tácticas de ángulo, instantánea y energía) con funciones de recompensa informadas por el conocimiento de expertos, mientras que la política de alto nivel termina dinámicamente las tácticas actuales y selecciona nuevas a través del aprendizaje de recompensas escasas, superando así las limitaciones de la ejecución táctica de duración fija. Además, se introduce un novedoso mecanismo de generación automática de currículos basado en Redes Generativas Antagónicas de Wasserstein (WGAN) para mejorar la eficiencia del entrenamiento y la adaptabilidad a diversas condiciones iniciales de combate. Experimentos extensivos realizados en simulaciones de combate aéreo de UCAV han demostrado que MEOL no solo logra tasas de victoria significativamente mejores que otras políticas al entrenar contra oponentes basados en reglas, sino que también MEOC logra resultados superiores en pruebas contra políticas tácticas intra-opción, así como otras políticas de aprendizaje de opciones. El marco facilita la terminación dinámica y el cambio de tácticas, abordando así las limitaciones de los métodos jerárquicos de duración fija. Los estudios de ablación confirman la efectividad de los currículos basados en WGAN para acelerar la convergencia de políticas. Además, el análisis visual de los registros de vuelo de los UCAV valida el proceso de toma de decisiones jerárquico aprendido, mostrando la interacción entre la selección táctica y la ejecución de maniobras. Esta investigación proporciona metodologías novedosas que combinan el aprendizaje por refuerzo jerárquico con el conocimiento del dominio táctico para la toma de decisiones autónoma de los UCAV en escenarios complejos de combate aéreo.