Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente

Autores: Deng, Xin; Dong, Zhaoqi; Ding, Jishiyu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Confrontación de UAV y Actualización Evolutiva Basada en Aprendizaje por Refuerzo Multi-Agente

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado

Aprendizaje por refuerzo multiagente

Planificación de decisiones

Gradiente de política determinista profunda

Intensidad de entrenamiento

Estrategias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los escenarios de confrontación de vehículos aéreos no tripulados (VANT) juegan un papel crucial en el estudio de la selección de comportamiento de agentes y la planificación de decisiones. Los algoritmos de aprendizaje por refuerzo multiagente (MARL) sirven como un método universalmente efectivo que guía a los agentes hacia estrategias de acción apropiadas. Determinan las acciones subsecuentes en función del estado de los agentes y la información ambiental que reciben. Sin embargo, los entornos tradicionales de MARL a menudo resultan en que un agente de un partido supere consistentemente al otro debido a estrategias superiores, o ambos agentes alcancen un estancamiento estratégico sin mejoras adicionales. Para resolver este problema, proponemos un algoritmo de gradiente de política determinista semi-estático basado en MARL. Este algoritmo emplea un enfoque de entrenamiento centralizado y ejecución descentralizada, ajustando dinámicamente la intensidad del entrenamiento en función de las fortalezas y debilidades comparativas de las estrategias de ambos agentes. Los resultados experimentales muestran que durante el proceso de entrenamiento, la estrategia del equipo ganador impulsa continuamente la estrategia del equipo perdedor a mejorar, y la relación entre el equipo ganador y el equipo perdedor sigue cambiando, logrando así una mejora mutua de las estrategias de ambos equipos. El algoritmo de aprendizaje por refuerzo semi-estático mejora la conversión de la relación de victorias y derrotas en un 8% y reduce el tiempo de entrenamiento en un 40% en comparación con el algoritmo de aprendizaje por refuerzo tradicional.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro