Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente
Autores: Deng, Xin; Dong, Zhaoqi; Ding, Jishiyu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Aprendizaje por refuerzo multiagente
Planificación de decisiones
Gradiente de política determinista profunda
Intensidad de entrenamiento
Estrategias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los escenarios de confrontación de vehículos aéreos no tripulados (VANT) juegan un papel crucial en el estudio de la selección de comportamiento de agentes y la planificación de decisiones. Los algoritmos de aprendizaje por refuerzo multiagente (MARL) sirven como un método universalmente efectivo que guía a los agentes hacia estrategias de acción apropiadas. Determinan las acciones subsecuentes en función del estado de los agentes y la información ambiental que reciben. Sin embargo, los entornos tradicionales de MARL a menudo resultan en que un agente de un partido supere consistentemente al otro debido a estrategias superiores, o ambos agentes alcancen un estancamiento estratégico sin mejoras adicionales. Para resolver este problema, proponemos un algoritmo de gradiente de política determinista semi-estático basado en MARL. Este algoritmo emplea un enfoque de entrenamiento centralizado y ejecución descentralizada, ajustando dinámicamente la intensidad del entrenamiento en función de las fortalezas y debilidades comparativas de las estrategias de ambos agentes. Los resultados experimentales muestran que durante el proceso de entrenamiento, la estrategia del equipo ganador impulsa continuamente la estrategia del equipo perdedor a mejorar, y la relación entre el equipo ganador y el equipo perdedor sigue cambiando, logrando así una mejora mutua de las estrategias de ambos equipos. El algoritmo de aprendizaje por refuerzo semi-estático mejora la conversión de la relación de victorias y derrotas en un 8% y reduce el tiempo de entrenamiento en un 40% en comparación con el algoritmo de aprendizaje por refuerzo tradicional.
Descripción
Los escenarios de confrontación de vehículos aéreos no tripulados (VANT) juegan un papel crucial en el estudio de la selección de comportamiento de agentes y la planificación de decisiones. Los algoritmos de aprendizaje por refuerzo multiagente (MARL) sirven como un método universalmente efectivo que guía a los agentes hacia estrategias de acción apropiadas. Determinan las acciones subsecuentes en función del estado de los agentes y la información ambiental que reciben. Sin embargo, los entornos tradicionales de MARL a menudo resultan en que un agente de un partido supere consistentemente al otro debido a estrategias superiores, o ambos agentes alcancen un estancamiento estratégico sin mejoras adicionales. Para resolver este problema, proponemos un algoritmo de gradiente de política determinista semi-estático basado en MARL. Este algoritmo emplea un enfoque de entrenamiento centralizado y ejecución descentralizada, ajustando dinámicamente la intensidad del entrenamiento en función de las fortalezas y debilidades comparativas de las estrategias de ambos agentes. Los resultados experimentales muestran que durante el proceso de entrenamiento, la estrategia del equipo ganador impulsa continuamente la estrategia del equipo perdedor a mejorar, y la relación entre el equipo ganador y el equipo perdedor sigue cambiando, logrando así una mejora mutua de las estrategias de ambos equipos. El algoritmo de aprendizaje por refuerzo semi-estático mejora la conversión de la relación de victorias y derrotas en un 8% y reduce el tiempo de entrenamiento en un 40% en comparación con el algoritmo de aprendizaje por refuerzo tradicional.