Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico

Autores: Tan, Mulai; Sun, Haocheng; Ding, Dali; Zhou, Huan; Liu, Yongli

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado

Juego de persecución y evasión

Aprendizaje por refuerzo jerárquico

Asignación de objetivos

Toma de decisiones de maniobra

Control de vuelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El juego de persecución-esquiva de vehículos aéreos no tripulados (VANT) es el marco fundamental para promover la toma de decisiones autónoma y el control colaborativo de sistemas de múltiples VANT. Ante las limitaciones de los métodos actuales de aprendizaje profundo por refuerzo en términos de transferibilidad y generalización para escenarios escalables de juegos de persecución-esquiva de múltiples VANT de ala fija, este documento propone un marco jerárquico de juego de persecución-esquiva colaborativo basado en la asignación de objetivos y el aprendizaje por refuerzo jerárquico. El marco comprende tres capas: capa de asignación de objetivos, capa de toma de decisiones de maniobra y capa de control de vuelo. La capa de asignación de objetivos emplea un método de asignación de objetivos dinámico basado en un mecanismo de ajuste de valor dinámico, descomponiendo el juego de persecución-esquiva de múltiples contra múltiples en varias confrontaciones de uno contra uno. La capa de toma de decisiones de maniobra utiliza un método de toma de decisiones de maniobra basado en la predicción de trayectorias y el aprendizaje por refuerzo jerárquico para generar comandos de maniobra adversarios. La capa de control de vuelo adopta un controlador de vuelo asistido por gradiente estable de aprendizaje por refuerzo para garantizar un vuelo estable del VANT. Las comparaciones con otros algoritmos en escenarios de 3V3, 6V6, 9V9 y 12V12 demuestran que el método propuesto logra altas tasas de victoria en diversas escalas de juego. Los resultados de la comparación también demuestran las ventajas del marco propuesto en este documento en términos de eficiencia de entrenamiento y escalabilidad a gran escala.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro