logo móvil
Contáctanos

Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente

Autores: Deng, Xin; Dong, Zhaoqi; Ding, Jishiyu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Aprendizaje por refuerzo multiagente
Planificación de decisiones
Gradiente de política determinista profunda
Intensidad de entrenamiento
Estrategias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los escenarios de confrontación de vehículos aéreos no tripulados (VANT) juegan un papel crucial en el estudio de la selección de comportamiento de agentes y la planificación de decisiones. Los algoritmos de aprendizaje por refuerzo multiagente (MARL) sirven como un método universalmente efectivo que guía a los agentes hacia estrategias de acción apropiadas. Determinan las acciones subsecuentes en función del estado de los agentes y la información ambiental que reciben. Sin embargo, los entornos tradicionales de MARL a menudo resultan en que un agente de un partido supere consistentemente al otro debido a estrategias superiores, o ambos agentes alcancen un estancamiento estratégico sin mejoras adicionales. Para resolver este problema, proponemos un algoritmo de gradiente de política determinista semi-estático basado en MARL. Este algoritmo emplea un enfoque de entrenamiento centralizado y ejecución descentralizada, ajustando dinámicamente la intensidad del entrenamiento en función de las fortalezas y debilidades comparativas de las estrategias de ambos agentes. Los resultados experimentales muestran que durante el proceso de entrenamiento, la estrategia del equipo ganador impulsa continuamente la estrategia del equipo perdedor a mejorar, y la relación entre el equipo ganador y el equipo perdedor sigue cambiando, logrando así una mejora mutua de las estrategias de ambos equipos. El algoritmo de aprendizaje por refuerzo semi-estático mejora la conversión de la relación de victorias y derrotas en un 8% y reduce el tiempo de entrenamiento en un 40% en comparación con el algoritmo de aprendizaje por refuerzo tradicional.

Otros recursos que podrían interesarte

Temas Virtualpro