logo móvil
Contáctanos

Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz

Autores: Quan, Jiale; Hu, Weijun; Ma, Xianlong; Chen, Gang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Optimización de políticas proximal
Parámetro de recorte
Consciente de la estabilidad
Ajuste dinámico
Oscilaciones de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo (RL), y en particular la Optimización de Política Proximal (PPO), ha mostrado promesas en el control de vehículos aéreos no tripulados (QUAV) de alta precisión. Sin embargo, el rendimiento de PPO es altamente sensible a la elección del parámetro de recorte, y configuraciones inapropiadas pueden llevar a dinámicas de entrenamiento inestables y oscilaciones excesivas de la política, lo que limita su implementación en aplicaciones aéreas críticas para la seguridad. Para abordar este problema, proponemos una estrategia de ajuste dinámico del parámetro de recorte consciente de la estabilidad, que adapta el umbral de recorte t en tiempo real basado en una métrica de varianza de estabilidad St. Este mecanismo adaptativo equilibra la exploración y la estabilidad a lo largo del proceso de entrenamiento. Además, proporcionamos una interpretación de continuidad de Lipschitz del mecanismo de recorte, mostrando que su adaptación ajusta implícitamente un límite en el paso de actualización de la política, ofreciendo así una garantía determinista sobre la magnitud de la oscilación. Resultados de simulación extensivos demuestran que el método propuesto reduce la varianza de la política en un 45% y acelera la convergencia en comparación con el PPO base, resultando en respuestas de control más suaves y una mejor robustez bajo condiciones operativas dinámicas. Aunque se desarrolló dentro del marco de PPO, el enfoque propuesto es fácilmente aplicable a otros métodos de gradiente de política en política.

Otros recursos que podrían interesarte

Temas Virtualpro