logo móvil
Contáctanos

Predicción de Ganancias del Controlador PD Basado en Aprendizaje por Refuerzo para UAVs Quadrotor

Autores: Sönmez, Serhat; Montecchio, Luca; Martini, Simone; Rutherford, Matthew J.; Rizzo, Alessandro; Stefanovic, Margareta; Valavanis, Kimon P.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Predicción de Ganancias del Controlador PD Basado en Aprendizaje por Refuerzo para UAVs Quadrotor


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Ganancias del controlador PD
Aplicaciones de quadrotor
Gradiente de Política Determinista Profunda
Agente de RL
Seguimiento de actitud

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta una metodología basada en el aprendizaje por refuerzo (RL) para el ajuste fino en línea de las ganancias del controlador PD, con el objetivo de cerrar la brecha entre los controladores entrenados en simulación y las aplicaciones de cuadricópteros en el mundo real. Como primer paso hacia la implementación en el mundo real, el enfoque propuesto aplica un algoritmo de Gradiente de Política Determinista Profunda (DDPG), un método actor-crítico fuera de política, para ajustar las ganancias de un controlador PD de actitud de cuadricóptero durante el vuelo. El agente de RL fue inicialmente entrenado fuera de línea en un entorno simulado, utilizando MATLAB/Simulink 2024a y el Paquete de Soporte para la Caja de Herramientas UAV para Autopilotos PX4 v1.14.0. El controlador entrenado fue luego validado a través de pruebas de vuelo tanto en simulación como experimentales. Se realizaron análisis de rendimiento comparativos entre los controladores ajustados manualmente y los ajustados por RL. Nuestros resultados demuestran que el método de ajuste basado en RL adapta con éxito las ganancias del controlador en tiempo real, lo que lleva a una mejor seguimiento de la actitud y a una reducción del error en estado estacionario. Este estudio constituye la primera etapa de un esfuerzo de investigación más amplio que investiga controladores PID, LQR, MRAC y PID integrados en RL basados en RL para el control en tiempo real de cuadricópteros.

Otros recursos que podrían interesarte

Temas Virtualpro