logo móvil
Contáctanos

Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo

Autores: Liu, Zhenyu; Lei, Gang; Xian, Yong; Ren, Leliang; Li, Shaopeng; Zhang, Daqiao

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Ley de guía cooperativa adaptativa
Aprendizaje profundo por refuerzo
Restricciones de FOV
UAVs de alta velocidad
Velocidad de impacto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En este estudio, se propone una ley de guía cooperativa de control de tiempo de impacto adaptativa basada en el aprendizaje por refuerzo profundo, considerando las restricciones del campo de visión (FOV) para UAVs de alta velocidad con velocidad variable en el tiempo. En primer lugar, se establece un marco de aprendizaje por refuerzo para el problema de guía de los UAVs de alta velocidad. El objetivo de optimización es maximizar la velocidad de impacto; y se consideran simultáneamente las restricciones para el tiempo de impacto, el ataque en picado y el FOV. Se mejora el método de estimación del tiempo restante para que pueda aplicarse a UAVs de alta velocidad con velocidad variable en el tiempo. Luego, para mejorar la aplicabilidad y robustez del agente, se incorporan incertidumbres ambientales, incluidos errores en los parámetros aerodinámicos, ruido de observación y maniobras aleatorias del objetivo, en el proceso de entrenamiento. Además, inspirado en el algoritmo RL2, se introduce la capa recurrente tanto en la red de políticas como en la de valor. De esta manera, el agente puede adaptarse automáticamente a diferentes escenarios de misión actualizando los estados ocultos de la capa recurrente. Además, se diseña una función de recompensa compuesta para entrenar al agente a satisfacer simultáneamente los requisitos de control de tiempo de impacto y ataque en picado. Finalmente, se valida la efectividad y robustez de la ley de guía propuesta a través de simulaciones numéricas realizadas en una amplia gama de escenarios.

Otros recursos que podrían interesarte

Temas Virtualpro