Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz
Autores: Quan, Jiale; Hu, Weijun; Ma, Xianlong; Chen, Gang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Optimización de políticas proximal
Parámetro de recorte
Consciente de la estabilidad
Ajuste dinámico
Oscilaciones de políticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje por refuerzo (RL), y en particular la Optimización de Política Proximal (PPO), ha mostrado promesas en el control de vehículos aéreos no tripulados (QUAV) de alta precisión. Sin embargo, el rendimiento de PPO es altamente sensible a la elección del parámetro de recorte, y configuraciones inapropiadas pueden llevar a dinámicas de entrenamiento inestables y oscilaciones excesivas de la política, lo que limita su implementación en aplicaciones aéreas críticas para la seguridad. Para abordar este problema, proponemos una estrategia de ajuste dinámico del parámetro de recorte consciente de la estabilidad, que adapta el umbral de recorte t en tiempo real basado en una métrica de varianza de estabilidad St. Este mecanismo adaptativo equilibra la exploración y la estabilidad a lo largo del proceso de entrenamiento. Además, proporcionamos una interpretación de continuidad de Lipschitz del mecanismo de recorte, mostrando que su adaptación ajusta implícitamente un límite en el paso de actualización de la política, ofreciendo así una garantía determinista sobre la magnitud de la oscilación. Resultados de simulación extensivos demuestran que el método propuesto reduce la varianza de la política en un 45% y acelera la convergencia en comparación con el PPO base, resultando en respuestas de control más suaves y una mejor robustez bajo condiciones operativas dinámicas. Aunque se desarrolló dentro del marco de PPO, el enfoque propuesto es fácilmente aplicable a otros métodos de gradiente de política en política.
Descripción
El aprendizaje por refuerzo (RL), y en particular la Optimización de Política Proximal (PPO), ha mostrado promesas en el control de vehículos aéreos no tripulados (QUAV) de alta precisión. Sin embargo, el rendimiento de PPO es altamente sensible a la elección del parámetro de recorte, y configuraciones inapropiadas pueden llevar a dinámicas de entrenamiento inestables y oscilaciones excesivas de la política, lo que limita su implementación en aplicaciones aéreas críticas para la seguridad. Para abordar este problema, proponemos una estrategia de ajuste dinámico del parámetro de recorte consciente de la estabilidad, que adapta el umbral de recorte t en tiempo real basado en una métrica de varianza de estabilidad St. Este mecanismo adaptativo equilibra la exploración y la estabilidad a lo largo del proceso de entrenamiento. Además, proporcionamos una interpretación de continuidad de Lipschitz del mecanismo de recorte, mostrando que su adaptación ajusta implícitamente un límite en el paso de actualización de la política, ofreciendo así una garantía determinista sobre la magnitud de la oscilación. Resultados de simulación extensivos demuestran que el método propuesto reduce la varianza de la política en un 45% y acelera la convergencia en comparación con el PPO base, resultando en respuestas de control más suaves y una mejor robustez bajo condiciones operativas dinámicas. Aunque se desarrolló dentro del marco de PPO, el enfoque propuesto es fácilmente aplicable a otros métodos de gradiente de política en política.