Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía
Autores: Zhu, Yiwen; Zheng, Yuan; Wei, Wenya; Fang, Zhou
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
UCAVs
Toma de decisiones
Métrica de optimización
Recompensas escasas
HSAC
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En el campo de la toma de decisiones autónoma en tiempo real para Vehículos Aéreos de Combate No Tripulados (UCAVs), el aprendizaje por refuerzo se utiliza ampliamente para mejorar sus capacidades de toma de decisiones en espacios de alta dimensión. Estas capacidades mejoradas permiten a los UCAVs responder mejor a las maniobras de varios oponentes, siendo la tasa de victorias a menudo el principal criterio de optimización. Sin embargo, depender únicamente del resultado final de victoria o derrota como objetivo de optimización, sin incorporar recompensas adicionales a lo largo del proceso, plantea desafíos significativos para el aprendizaje por refuerzo debido a la estructura de recompensas escasas inherente a estos escenarios. Si bien los algoritmos mejorados con recompensas artificiales distribuidas densamente muestran potencial, corren el riesgo de desviarse de los objetivos principales. Para abordar estos desafíos, introducimos un enfoque novedoso: el método de actor-crítico suave basado en homotopía (HSAC). Esta técnica transita gradualmente de tareas auxiliares enriquecidas con recompensas artificiales a la tarea principal caracterizada por recompensas escasas a través de caminos homotópicos. Demostramos la convergencia consistente del método HSAC y su efectividad a través de su implementación en dos escenarios distintos dentro de una simulación de combate aéreo en 3D: atacando UCAVs que vuelan horizontalmente y un escenario de combate que involucra a dos UCAVs. Nuestros resultados experimentales revelan que HSAC supera significativamente a los algoritmos tradicionales, que dependen únicamente del uso de recompensas escasas o de aquellas complementadas con recompensas artificialmente asistidas.
Descripción
En el campo de la toma de decisiones autónoma en tiempo real para Vehículos Aéreos de Combate No Tripulados (UCAVs), el aprendizaje por refuerzo se utiliza ampliamente para mejorar sus capacidades de toma de decisiones en espacios de alta dimensión. Estas capacidades mejoradas permiten a los UCAVs responder mejor a las maniobras de varios oponentes, siendo la tasa de victorias a menudo el principal criterio de optimización. Sin embargo, depender únicamente del resultado final de victoria o derrota como objetivo de optimización, sin incorporar recompensas adicionales a lo largo del proceso, plantea desafíos significativos para el aprendizaje por refuerzo debido a la estructura de recompensas escasas inherente a estos escenarios. Si bien los algoritmos mejorados con recompensas artificiales distribuidas densamente muestran potencial, corren el riesgo de desviarse de los objetivos principales. Para abordar estos desafíos, introducimos un enfoque novedoso: el método de actor-crítico suave basado en homotopía (HSAC). Esta técnica transita gradualmente de tareas auxiliares enriquecidas con recompensas artificiales a la tarea principal caracterizada por recompensas escasas a través de caminos homotópicos. Demostramos la convergencia consistente del método HSAC y su efectividad a través de su implementación en dos escenarios distintos dentro de una simulación de combate aéreo en 3D: atacando UCAVs que vuelan horizontalmente y un escenario de combate que involucra a dos UCAVs. Nuestros resultados experimentales revelan que HSAC supera significativamente a los algoritmos tradicionales, que dependen únicamente del uso de recompensas escasas o de aquellas complementadas con recompensas artificialmente asistidas.