logo móvil
Contáctanos

Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía

Autores: Zhu, Yiwen; Zheng, Yuan; Wei, Wenya; Fang, Zhou

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
UCAVs
Toma de decisiones
Métrica de optimización
Recompensas escasas
HSAC

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En el campo de la toma de decisiones autónoma en tiempo real para Vehículos Aéreos de Combate No Tripulados (UCAVs), el aprendizaje por refuerzo se utiliza ampliamente para mejorar sus capacidades de toma de decisiones en espacios de alta dimensión. Estas capacidades mejoradas permiten a los UCAVs responder mejor a las maniobras de varios oponentes, siendo la tasa de victorias a menudo el principal criterio de optimización. Sin embargo, depender únicamente del resultado final de victoria o derrota como objetivo de optimización, sin incorporar recompensas adicionales a lo largo del proceso, plantea desafíos significativos para el aprendizaje por refuerzo debido a la estructura de recompensas escasas inherente a estos escenarios. Si bien los algoritmos mejorados con recompensas artificiales distribuidas densamente muestran potencial, corren el riesgo de desviarse de los objetivos principales. Para abordar estos desafíos, introducimos un enfoque novedoso: el método de actor-crítico suave basado en homotopía (HSAC). Esta técnica transita gradualmente de tareas auxiliares enriquecidas con recompensas artificiales a la tarea principal caracterizada por recompensas escasas a través de caminos homotópicos. Demostramos la convergencia consistente del método HSAC y su efectividad a través de su implementación en dos escenarios distintos dentro de una simulación de combate aéreo en 3D: atacando UCAVs que vuelan horizontalmente y un escenario de combate que involucra a dos UCAVs. Nuestros resultados experimentales revelan que HSAC supera significativamente a los algoritmos tradicionales, que dependen únicamente del uso de recompensas escasas o de aquellas complementadas con recompensas artificialmente asistidas.

Otros recursos que podrían interesarte

Temas Virtualpro