Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo

Autores: Liu, Zhenyu; Lei, Gang; Xian, Yong; Ren, Leliang; Li, Shaopeng; Zhang, Daqiao

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Ley de guía cooperativa de control de tiempo de impacto adaptativo para UAVs bajo velocidad variable en el tiempo basada en aprendizaje por refuerzo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Ley de guía cooperativa adaptativa

Aprendizaje profundo por refuerzo

Restricciones de FOV

UAVs de alta velocidad

Velocidad de impacto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En este estudio, se propone una ley de guía cooperativa de control de tiempo de impacto adaptativa basada en el aprendizaje por refuerzo profundo, considerando las restricciones del campo de visión (FOV) para UAVs de alta velocidad con velocidad variable en el tiempo. En primer lugar, se establece un marco de aprendizaje por refuerzo para el problema de guía de los UAVs de alta velocidad. El objetivo de optimización es maximizar la velocidad de impacto; y se consideran simultáneamente las restricciones para el tiempo de impacto, el ataque en picado y el FOV. Se mejora el método de estimación del tiempo restante para que pueda aplicarse a UAVs de alta velocidad con velocidad variable en el tiempo. Luego, para mejorar la aplicabilidad y robustez del agente, se incorporan incertidumbres ambientales, incluidos errores en los parámetros aerodinámicos, ruido de observación y maniobras aleatorias del objetivo, en el proceso de entrenamiento. Además, inspirado en el algoritmo RL2, se introduce la capa recurrente tanto en la red de políticas como en la de valor. De esta manera, el agente puede adaptarse automáticamente a diferentes escenarios de misión actualizando los estados ocultos de la capa recurrente. Además, se diseña una función de recompensa compuesta para entrenar al agente a satisfacer simultáneamente los requisitos de control de tiempo de impacto y ataque en picado. Finalmente, se valida la efectividad y robustez de la ley de guía propuesta a través de simulaciones numéricas realizadas en una amplia gama de escenarios.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro