Predicción de Ganancias del Controlador PD Basado en Aprendizaje por Refuerzo para UAVs Quadrotor

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Predicción de Ganancias del Controlador PD Basado en Aprendizaje por Refuerzo para UAVs Quadrotor

Autores: Sönmez, Serhat; Montecchio, Luca; Martini, Simone; Rutherford, Matthew J.; Rizzo, Alessandro; Stefanovic, Margareta; Valavanis, Kimon P.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Predicción de Ganancias del Controlador PD Basado en Aprendizaje por Refuerzo para UAVs Quadrotor

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Ganancias del controlador PD

Aplicaciones de quadrotor

Gradiente de Política Determinista Profunda

Agente de RL

Seguimiento de actitud

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento presenta una metodología basada en el aprendizaje por refuerzo (RL) para el ajuste fino en línea de las ganancias del controlador PD, con el objetivo de cerrar la brecha entre los controladores entrenados en simulación y las aplicaciones de cuadricópteros en el mundo real. Como primer paso hacia la implementación en el mundo real, el enfoque propuesto aplica un algoritmo de Gradiente de Política Determinista Profunda (DDPG), un método actor-crítico fuera de política, para ajustar las ganancias de un controlador PD de actitud de cuadricóptero durante el vuelo. El agente de RL fue inicialmente entrenado fuera de línea en un entorno simulado, utilizando MATLAB/Simulink 2024a y el Paquete de Soporte para la Caja de Herramientas UAV para Autopilotos PX4 v1.14.0. El controlador entrenado fue luego validado a través de pruebas de vuelo tanto en simulación como experimentales. Se realizaron análisis de rendimiento comparativos entre los controladores ajustados manualmente y los ajustados por RL. Nuestros resultados demuestran que el método de ajuste basado en RL adapta con éxito las ganancias del controlador en tiempo real, lo que lleva a una mejor seguimiento de la actitud y a una reducción del error en estado estacionario. Este estudio constituye la primera etapa de un esfuerzo de investigación más amplio que investiga controladores PID, LQR, MRAC y PID integrados en RL basados en RL para el control en tiempo real de cuadricópteros.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro