Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía

Autores: Zhu, Yiwen; Zheng, Yuan; Wei, Wenya; Fang, Zhou

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando las decisiones de maniobra automatizadas en juegos de combate aéreo de UCAV utilizando aprendizaje por refuerzo basado en homotopía

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

UCAVs

Toma de decisiones

Métrica de optimización

Recompensas escasas

HSAC

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En el campo de la toma de decisiones autónoma en tiempo real para Vehículos Aéreos de Combate No Tripulados (UCAVs), el aprendizaje por refuerzo se utiliza ampliamente para mejorar sus capacidades de toma de decisiones en espacios de alta dimensión. Estas capacidades mejoradas permiten a los UCAVs responder mejor a las maniobras de varios oponentes, siendo la tasa de victorias a menudo el principal criterio de optimización. Sin embargo, depender únicamente del resultado final de victoria o derrota como objetivo de optimización, sin incorporar recompensas adicionales a lo largo del proceso, plantea desafíos significativos para el aprendizaje por refuerzo debido a la estructura de recompensas escasas inherente a estos escenarios. Si bien los algoritmos mejorados con recompensas artificiales distribuidas densamente muestran potencial, corren el riesgo de desviarse de los objetivos principales. Para abordar estos desafíos, introducimos un enfoque novedoso: el método de actor-crítico suave basado en homotopía (HSAC). Esta técnica transita gradualmente de tareas auxiliares enriquecidas con recompensas artificiales a la tarea principal caracterizada por recompensas escasas a través de caminos homotópicos. Demostramos la convergencia consistente del método HSAC y su efectividad a través de su implementación en dos escenarios distintos dentro de una simulación de combate aéreo en 3D: atacando UCAVs que vuelan horizontalmente y un escenario de combate que involucra a dos UCAVs. Nuestros resultados experimentales revelan que HSAC supera significativamente a los algoritmos tradicionales, que dependen únicamente del uso de recompensas escasas o de aquellas complementadas con recompensas artificialmente asistidas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro