logo móvil
Contáctanos

Algoritmo de Toma de Decisiones de Maniobra Autónoma para Vehículos Aéreos No Tripulados Basado en Agrupamiento de Nodos y Gradiente de Política Determinista Profunda

Autores: Jing, Xianyong; Cong, Fuzhong; Huang, Jichuan; Tian, Chunyan; Su, Zikang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Algoritmo de Toma de Decisiones de Maniobra Autónoma para Vehículos Aéreos No Tripulados Basado en Agrupamiento de Nodos y Gradiente de Política Determinista Profunda


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Maniobrabilidad autónoma
Toma de decisiones
Algoritmo DDPG
Agrupamiento de nodos
Proceso de aprendizaje
Estrategias complejas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
La toma de decisiones para maniobras autónomas en entornos dinámicos, inciertos y no lineales representa un problema fronterizo desafiante. El gradiente de política determinista profundo (DDPG) es un método efectivo para resolver tales problemas, pero se ha encontrado que las estrategias complejas requieren una extensa computación y tiempo en el proceso de aprendizaje. Para abordar este problema, proponemos un método de agrupamiento de nodos (NC), inspirado en el agrupamiento en cuadrícula, integrado en el algoritmo DDPG para el aprendizaje de estrategias complejas. En el método NC, el grado de pertenencia del nodo se define de acuerdo con las características específicas del problema de toma de decisiones de maniobra, y se diseñan estrategias de manejo de errores para reducir efectivamente el número de transiciones en la base de datos de reproducción, asegurando que se retengan las transiciones más típicas. Luego, combinando NC y DDPG, se diseña un algoritmo de aprendizaje y toma de decisiones autónomas para maniobras. Se presenta el flujo del algoritmo y el pseudocódigo del algoritmo. Finalmente, se aplica el algoritmo NC_DDPG a un problema típico de toma de decisiones de maniobras en combate aéreo de corto alcance para su verificación. Los resultados muestran que el algoritmo NC_DDPG acelera significativamente el proceso de aprendizaje y toma de decisiones autónomas tanto en condiciones equilibradas como desventajosas, tomando solo aproximadamente el 77% del tiempo requerido por el Vector DDPG. La escala de NC impacta la velocidad de aprendizaje; los resultados de simulación en cinco escalas indican que escalas de agrupamiento más pequeñas aumentan significativamente el tiempo de aprendizaje, a pesar de un alto grado de aleatoriedad. En comparación con el DDPG de retardo doble (TD3), NC_DDPG consume solo el 0.58% del tiempo del TD3 tradicional. Después de aplicar el método NC a TD3, NC_DDPG requiere aproximadamente el 20-30% del tiempo de NC_TD3.

Otros recursos que podrían interesarte

Temas Virtualpro