SA-DSM-MADDPG para el Cerco Cooperativo de Múltiples UAV en Escenarios de Persecución-Evasión Ricos en Obstáculos
Autores: Liang, Qing; Yang, Yujie; Liang, Shihao; Li, Hui
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
SA-DSM-MADDPG para el Cerco Cooperativo de Múltiples UAV en Escenarios de Persecución-Evasión Ricos en Obstáculos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Encerramiento cooperativo
Multiagente
MADDPG
Interacciones dinámicas entre agentes
Movimiento con obstáculos
Crítico de autoatención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La cooperación multi-UAV en escenarios de persecución-esquiva requiere una coordinación efectiva bajo interacciones dinámicas entre agentes, retroalimentación de tareas escasa y movimiento restringido por obstáculos. Si bien MADDPG ofrece un marco práctico CTDE para el control continuo de múltiples agentes, su aplicación directa a la cooperación en el cerco aún enfrenta desafíos en la modelación de dependencias entre compañeros que varían en el tiempo, la selección de muestras de repetición informativas y el mantenimiento de un aprendizaje estable bajo recompensas retrasadas. Para abordar estos desafíos, proponemos SA-DSM-MADDPG, un método mejorado de gradiente de política determinista profundo para múltiples agentes que integra lo siguiente: (i) un crítico de autoatención para modelar la relevancia dinámica entre agentes, (ii) una estrategia de repetición de experiencia de doble filtrado que combina muestreo priorizado y filtrado de relevancia para mejorar la calidad de la repetición, y (iii) aprendizaje por currículos con modelado de recompensas escalonadas para proporcionar señales de entrenamiento más densas y estables. Evaluamos el método propuesto en entornos de cerco cooperativo 3v1 con obstáculos estáticos y condiciones iniciales variables. Los resultados experimentales muestran que SA-DSM-MADDPG mejora la tasa de éxito en aproximadamente 22 puntos porcentuales sobre MADDPG y 35 puntos porcentuales sobre MAPPO, al tiempo que también exhibe una convergencia más rápida y una mejor estabilidad en el entrenamiento.
Descripción
La cooperación multi-UAV en escenarios de persecución-esquiva requiere una coordinación efectiva bajo interacciones dinámicas entre agentes, retroalimentación de tareas escasa y movimiento restringido por obstáculos. Si bien MADDPG ofrece un marco práctico CTDE para el control continuo de múltiples agentes, su aplicación directa a la cooperación en el cerco aún enfrenta desafíos en la modelación de dependencias entre compañeros que varían en el tiempo, la selección de muestras de repetición informativas y el mantenimiento de un aprendizaje estable bajo recompensas retrasadas. Para abordar estos desafíos, proponemos SA-DSM-MADDPG, un método mejorado de gradiente de política determinista profundo para múltiples agentes que integra lo siguiente: (i) un crítico de autoatención para modelar la relevancia dinámica entre agentes, (ii) una estrategia de repetición de experiencia de doble filtrado que combina muestreo priorizado y filtrado de relevancia para mejorar la calidad de la repetición, y (iii) aprendizaje por currículos con modelado de recompensas escalonadas para proporcionar señales de entrenamiento más densas y estables. Evaluamos el método propuesto en entornos de cerco cooperativo 3v1 con obstáculos estáticos y condiciones iniciales variables. Los resultados experimentales muestran que SA-DSM-MADDPG mejora la tasa de éxito en aproximadamente 22 puntos porcentuales sobre MADDPG y 35 puntos porcentuales sobre MAPPO, al tiempo que también exhibe una convergencia más rápida y una mejor estabilidad en el entrenamiento.