logo móvil
Contáctanos

SCPL-TD3: Una Estrategia de Evasión Inteligente para UAVs de Alta Velocidad en Persecución-Evasión Coordinada

Autores: Zhang, Xiaoyan; Yan, Tian; Li, Tong; Liu, Can; Jiang, Zijian; Yan, Jie

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

SCPL-TD3: Una Estrategia de Evasión Inteligente para UAVs de Alta Velocidad en Persecución-Evasión Coordinada


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Avances rápidos
Tecnologías de persecución cinética
Marco de clasificación de dificultad de evasión
Estrategia de evasión de maniobra inteligente
Algoritmo SCPL-TD3
Eficiencia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El rápido avance de las tecnologías de persecución cinética ha aumentado significativamente la dificultad de evasión para los UAV de alta velocidad (HSUAV), particularmente en escenarios donde dos perseguidores que operan de manera colaborativa se acercan desde la misma dirección con intervalos de espacio inicial optimizados. Este artículo comienza derivando un intervalo de espacio inicial óptimo para mejorar la efectividad de la persecución cooperativa e introduce un marco de clasificación de dificultad de evasión, proporcionando así un enfoque estructurado para evaluar y optimizar estrategias de evasión. Basado en esto, se propone una estrategia de evasión de maniobra inteligente utilizando aprendizaje progresivo de clasificación semántica con gradiente de política determinista profundo retrasado doble (SCPL-TD3) para abordar los escenarios desafiantes identificados a través del análisis. La eficiencia del entrenamiento se mejora mediante el algoritmo SCPL-TD3 propuesto a través del empleo de aprendizaje progresivo para ajustar dinámicamente la complejidad del entrenamiento y la integración de la clasificación semántica para guiar el proceso de aprendizaje a través del reconocimiento significativo de patrones de estado-acción. Basado en el marco de gradiente de política determinista profundo retrasado doble, el algoritmo mejora aún más tanto la estabilidad como la eficiencia en entornos complejos. Se incorpora una función de recompensa especialmente diseñada para equilibrar el rendimiento de evasión con las restricciones de la misión, asegurando el cumplimiento de los objetivos operativos del HSUAV. Los resultados de simulación demuestran que el enfoque propuesto mejora significativamente la estabilidad del entrenamiento y la efectividad de evasión, logrando una tasa de éxito del 97.04% y una mejora del 7.10-14.85% en la velocidad de toma de decisiones.

Otros recursos que podrían interesarte

Temas Virtualpro