Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo
Autores: Liu, Zhenyu; Lei, Gang; Xian, Yong; Ren, Leliang; Li, Shaopeng; Zhang, Daqiao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Ley de guía cooperativa adaptativa
Aprendizaje profundo por refuerzo
Restricciones de FOV
UAVs de alta velocidad
Velocidad de impacto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este estudio, se propone una ley de guía cooperativa de control de tiempo de impacto adaptativa basada en el aprendizaje por refuerzo profundo, considerando las restricciones del campo de visión (FOV) para UAVs de alta velocidad con velocidad variable en el tiempo. En primer lugar, se establece un marco de aprendizaje por refuerzo para el problema de guía de los UAVs de alta velocidad. El objetivo de optimización es maximizar la velocidad de impacto; y se consideran simultáneamente las restricciones para el tiempo de impacto, el ataque en picado y el FOV. Se mejora el método de estimación del tiempo restante para que pueda aplicarse a UAVs de alta velocidad con velocidad variable en el tiempo. Luego, para mejorar la aplicabilidad y robustez del agente, se incorporan incertidumbres ambientales, incluidos errores en los parámetros aerodinámicos, ruido de observación y maniobras aleatorias del objetivo, en el proceso de entrenamiento. Además, inspirado en el algoritmo RL2, se introduce la capa recurrente tanto en la red de políticas como en la de valor. De esta manera, el agente puede adaptarse automáticamente a diferentes escenarios de misión actualizando los estados ocultos de la capa recurrente. Además, se diseña una función de recompensa compuesta para entrenar al agente a satisfacer simultáneamente los requisitos de control de tiempo de impacto y ataque en picado. Finalmente, se valida la efectividad y robustez de la ley de guía propuesta a través de simulaciones numéricas realizadas en una amplia gama de escenarios.
Descripción
En este estudio, se propone una ley de guía cooperativa de control de tiempo de impacto adaptativa basada en el aprendizaje por refuerzo profundo, considerando las restricciones del campo de visión (FOV) para UAVs de alta velocidad con velocidad variable en el tiempo. En primer lugar, se establece un marco de aprendizaje por refuerzo para el problema de guía de los UAVs de alta velocidad. El objetivo de optimización es maximizar la velocidad de impacto; y se consideran simultáneamente las restricciones para el tiempo de impacto, el ataque en picado y el FOV. Se mejora el método de estimación del tiempo restante para que pueda aplicarse a UAVs de alta velocidad con velocidad variable en el tiempo. Luego, para mejorar la aplicabilidad y robustez del agente, se incorporan incertidumbres ambientales, incluidos errores en los parámetros aerodinámicos, ruido de observación y maniobras aleatorias del objetivo, en el proceso de entrenamiento. Además, inspirado en el algoritmo RL2, se introduce la capa recurrente tanto en la red de políticas como en la de valor. De esta manera, el agente puede adaptarse automáticamente a diferentes escenarios de misión actualizando los estados ocultos de la capa recurrente. Además, se diseña una función de recompensa compuesta para entrenar al agente a satisfacer simultáneamente los requisitos de control de tiempo de impacto y ataque en picado. Finalmente, se valida la efectividad y robustez de la ley de guía propuesta a través de simulaciones numéricas realizadas en una amplia gama de escenarios.