Aprendizaje por Refuerzo Jerárquico con Generación Automática de Currículo para la Toma de Decisiones Tácticas de Vehículos Aéreos de Combate No Tripulados en Combate Aéreo Autónomo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Jerárquico con Generación Automática de Currículo para la Toma de Decisiones Tácticas de Vehículos Aéreos de Combate No Tripulados en Combate Aéreo Autónomo

Autores: Li, Yang; Dong, Wenhan; Zhang, Pin; Zhai, Hengang; Li, Guangqi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por Refuerzo Jerárquico con Generación Automática de Currículo para la Toma de Decisiones Tácticas de Vehículos Aéreos de Combate No Tripulados en Combate Aéreo Autónomo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Estudio

Marco de aprendizaje por refuerzo jerárquico

UCAVs

Políticas tácticas

Marco MEOL

Redes Generativas Antagónicas de Wasserstein

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este estudio propone un marco de aprendizaje por refuerzo jerárquico orientado a vehículos aéreos de combate no tripulados (UCAV) para abordar el desafío de la abstracción temporal en el combate aéreo autónomo dentro del rango visual (WVRAC) para UCAV. La incorporación de objetivos de máxima entropía dentro del marco MEOL facilita la optimización tanto del descubrimiento táctico autónomo de bajo nivel como de la selección de opciones de alto nivel. A bajo nivel, se diseñan tres políticas tácticas (tácticas de ángulo, instantánea y energía) con funciones de recompensa informadas por el conocimiento de expertos, mientras que la política de alto nivel termina dinámicamente las tácticas actuales y selecciona nuevas a través del aprendizaje de recompensas escasas, superando así las limitaciones de la ejecución táctica de duración fija. Además, se introduce un novedoso mecanismo de generación automática de currículos basado en Redes Generativas Antagónicas de Wasserstein (WGAN) para mejorar la eficiencia del entrenamiento y la adaptabilidad a diversas condiciones iniciales de combate. Experimentos extensivos realizados en simulaciones de combate aéreo de UCAV han demostrado que MEOL no solo logra tasas de victoria significativamente mejores que otras políticas al entrenar contra oponentes basados en reglas, sino que también MEOC logra resultados superiores en pruebas contra políticas tácticas intra-opción, así como otras políticas de aprendizaje de opciones. El marco facilita la terminación dinámica y el cambio de tácticas, abordando así las limitaciones de los métodos jerárquicos de duración fija. Los estudios de ablación confirman la efectividad de los currículos basados en WGAN para acelerar la convergencia de políticas. Además, el análisis visual de los registros de vuelo de los UCAV valida el proceso de toma de decisiones jerárquico aprendido, mostrando la interacción entre la selección táctica y la ejecución de maniobras. Esta investigación proporciona metodologías novedosas que combinan el aprendizaje por refuerzo jerárquico con el conocimiento del dominio táctico para la toma de decisiones autónoma de los UCAV en escenarios complejos de combate aéreo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro