Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz

Autores: Quan, Jiale; Hu, Weijun; Ma, Xianlong; Chen, Gang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Estabilización de Aprendizaje por Refuerzo para UAVs Quadrotor a través de Regularización de Políticas con Restricciones de Lipschitz

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Optimización de políticas proximal

Parámetro de recorte

Consciente de la estabilidad

Ajuste dinámico

Oscilaciones de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El aprendizaje por refuerzo (RL), y en particular la Optimización de Política Proximal (PPO), ha mostrado promesas en el control de vehículos aéreos no tripulados (QUAV) de alta precisión. Sin embargo, el rendimiento de PPO es altamente sensible a la elección del parámetro de recorte, y configuraciones inapropiadas pueden llevar a dinámicas de entrenamiento inestables y oscilaciones excesivas de la política, lo que limita su implementación en aplicaciones aéreas críticas para la seguridad. Para abordar este problema, proponemos una estrategia de ajuste dinámico del parámetro de recorte consciente de la estabilidad, que adapta el umbral de recorte t en tiempo real basado en una métrica de varianza de estabilidad St. Este mecanismo adaptativo equilibra la exploración y la estabilidad a lo largo del proceso de entrenamiento. Además, proporcionamos una interpretación de continuidad de Lipschitz del mecanismo de recorte, mostrando que su adaptación ajusta implícitamente un límite en el paso de actualización de la política, ofreciendo así una garantía determinista sobre la magnitud de la oscilación. Resultados de simulación extensivos demuestran que el método propuesto reduce la varianza de la política en un 45% y acelera la convergencia en comparación con el PPO base, resultando en respuestas de control más suaves y una mejor robustez bajo condiciones operativas dinámicas. Aunque se desarrolló dentro del marco de PPO, el enfoque propuesto es fácilmente aplicable a otros métodos de gradiente de política en política.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro