logo móvil
Contáctanos

SA-DSM-MADDPG para el Cerco Cooperativo de Múltiples UAV en Escenarios de Persecución-Evasión Ricos en Obstáculos

Autores: Liang, Qing; Yang, Yujie; Liang, Shihao; Li, Hui

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

SA-DSM-MADDPG para el Cerco Cooperativo de Múltiples UAV en Escenarios de Persecución-Evasión Ricos en Obstáculos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Encerramiento cooperativo
Multiagente
MADDPG
Interacciones dinámicas entre agentes
Movimiento con obstáculos
Crítico de autoatención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La cooperación multi-UAV en escenarios de persecución-esquiva requiere una coordinación efectiva bajo interacciones dinámicas entre agentes, retroalimentación de tareas escasa y movimiento restringido por obstáculos. Si bien MADDPG ofrece un marco práctico CTDE para el control continuo de múltiples agentes, su aplicación directa a la cooperación en el cerco aún enfrenta desafíos en la modelación de dependencias entre compañeros que varían en el tiempo, la selección de muestras de repetición informativas y el mantenimiento de un aprendizaje estable bajo recompensas retrasadas. Para abordar estos desafíos, proponemos SA-DSM-MADDPG, un método mejorado de gradiente de política determinista profundo para múltiples agentes que integra lo siguiente: (i) un crítico de autoatención para modelar la relevancia dinámica entre agentes, (ii) una estrategia de repetición de experiencia de doble filtrado que combina muestreo priorizado y filtrado de relevancia para mejorar la calidad de la repetición, y (iii) aprendizaje por currículos con modelado de recompensas escalonadas para proporcionar señales de entrenamiento más densas y estables. Evaluamos el método propuesto en entornos de cerco cooperativo 3v1 con obstáculos estáticos y condiciones iniciales variables. Los resultados experimentales muestran que SA-DSM-MADDPG mejora la tasa de éxito en aproximadamente 22 puntos porcentuales sobre MADDPG y 35 puntos porcentuales sobre MAPPO, al tiempo que también exhibe una convergencia más rápida y una mejor estabilidad en el entrenamiento.

Otros recursos que podrían interesarte

Temas Virtualpro