Control seguro de UAV contra perturbaciones del viento a través de aprendizaje por refuerzo guiado por demostración
Autores: Huang, Yan-Hao; Liu, En-Jui; Wu, Bo-Cing; Ning, Yong-Jie
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Control seguro de UAV contra perturbaciones del viento a través de aprendizaje por refuerzo guiado por demostración
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Mecanismos de seguridad
Función de barrera de control
Aprendizaje por refuerzo
Optimización de políticas
Sistemas autónomos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (UAV) que operan en entornos complejos requieren mecanismos de seguridad garantizados mientras mantienen un alto rendimiento. Este estudio aborda el desafío de garantizar una estricta seguridad de vuelo durante la ejecución de políticas mediante la implementación de una Función de Barrera de Control (CBF) como un filtro de acción en tiempo real, proporcionando así una garantía formal rigurosa. La metodología integra el algoritmo principal de Optimización de Políticas Proximales (PPO) con un Aprendizaje por Refuerzo Guiado por Demostración (DGRL), que aprovecha las trayectorias de expertos de Proporcional-Integral-Derivada (PID) para acelerar significativamente la convergencia del aprendizaje y mejorar la eficiencia de las muestras. Resultados exhaustivos confirman la eficacia de la arquitectura híbrida, demostrando una reducción significativa en las violaciones de restricciones y probando la capacidad del marco para acelerar sustancialmente el entrenamiento en comparación con PPO. En conclusión, la metodología propuesta unifica con éxito las garantías de seguridad formal con un aprendizaje por refuerzo eficiente y adaptativo, lo que la hace altamente adecuada para sistemas autónomos críticos en términos de seguridad.
Descripción
Los vehículos aéreos no tripulados (UAV) que operan en entornos complejos requieren mecanismos de seguridad garantizados mientras mantienen un alto rendimiento. Este estudio aborda el desafío de garantizar una estricta seguridad de vuelo durante la ejecución de políticas mediante la implementación de una Función de Barrera de Control (CBF) como un filtro de acción en tiempo real, proporcionando así una garantía formal rigurosa. La metodología integra el algoritmo principal de Optimización de Políticas Proximales (PPO) con un Aprendizaje por Refuerzo Guiado por Demostración (DGRL), que aprovecha las trayectorias de expertos de Proporcional-Integral-Derivada (PID) para acelerar significativamente la convergencia del aprendizaje y mejorar la eficiencia de las muestras. Resultados exhaustivos confirman la eficacia de la arquitectura híbrida, demostrando una reducción significativa en las violaciones de restricciones y probando la capacidad del marco para acelerar sustancialmente el entrenamiento en comparación con PPO. En conclusión, la metodología propuesta unifica con éxito las garantías de seguridad formal con un aprendizaje por refuerzo eficiente y adaptativo, lo que la hace altamente adecuada para sistemas autónomos críticos en términos de seguridad.