Una Estrategia Robusta para el Aterrizaje Autónomo de UAV en una Plataforma Móvil bajo Observabilidad Parcial
Autores: Aikins, Godwyll; Jagtap, Sagar; Nguyen, Kim-Doang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Una Estrategia Robusta para el Aterrizaje Autónomo de UAV en una Plataforma Móvil bajo Observabilidad Parcial
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Multi-rotor
Vehículo aéreo no tripulado
Red LSTM
Optimización de políticas proximales
RPO
Aprendizaje profundo por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Aterrizar un vehículo aéreo no tripulado (UAV) de múltiples rotores en un objetivo en movimiento en presencia de observabilidad parcial, debido a factores como fallos en los sensores o ruido, representa un desafío excepcional que requiere técnicas integrativas en robótica y aprendizaje automático. En este artículo, proponemos incorporar una red de memoria a largo y corto plazo (LSTM) en una variación de la optimización de políticas proximales (PPO), denominada optimización de políticas robustas (RPO), para abordar este problema. El algoritmo propuesto es un enfoque de aprendizaje por refuerzo profundo que utiliza redes neuronales recurrentes (RNN) como componente de memoria. Aprovechando la capacidad de aprendizaje de extremo a extremo del aprendizaje por refuerzo profundo, el algoritmo RPO-LSTM aprende la política de control óptima sin necesidad de ingeniería de características. A través de una serie de estudios basados en simulaciones, demostramos la efectividad y practicidad superiores de nuestro enfoque en comparación con la optimización de políticas proximales (PPO) de última generación y el método de control clásico Lee-EKF, particularmente en escenarios con observabilidad parcial. Los resultados empíricos revelan que RPO-LSTM supera significativamente a los algoritmos de aprendizaje por refuerzo competidores, logrando hasta un 74% más de aterrizajes exitosos que Lee-EKF y un 50% más que PPO en escenarios de parpadeo, manteniendo un rendimiento robusto en entornos ruidosos y en las condiciones más desafiantes que combinan parpadeo y ruido. Estos hallazgos subrayan el potencial de RPO-LSTM para resolver el problema del aterrizaje de UAV en objetivos en movimiento en medio de diversos grados de deterioro de sensores e interferencia ambiental.
Descripción
Aterrizar un vehículo aéreo no tripulado (UAV) de múltiples rotores en un objetivo en movimiento en presencia de observabilidad parcial, debido a factores como fallos en los sensores o ruido, representa un desafío excepcional que requiere técnicas integrativas en robótica y aprendizaje automático. En este artículo, proponemos incorporar una red de memoria a largo y corto plazo (LSTM) en una variación de la optimización de políticas proximales (PPO), denominada optimización de políticas robustas (RPO), para abordar este problema. El algoritmo propuesto es un enfoque de aprendizaje por refuerzo profundo que utiliza redes neuronales recurrentes (RNN) como componente de memoria. Aprovechando la capacidad de aprendizaje de extremo a extremo del aprendizaje por refuerzo profundo, el algoritmo RPO-LSTM aprende la política de control óptima sin necesidad de ingeniería de características. A través de una serie de estudios basados en simulaciones, demostramos la efectividad y practicidad superiores de nuestro enfoque en comparación con la optimización de políticas proximales (PPO) de última generación y el método de control clásico Lee-EKF, particularmente en escenarios con observabilidad parcial. Los resultados empíricos revelan que RPO-LSTM supera significativamente a los algoritmos de aprendizaje por refuerzo competidores, logrando hasta un 74% más de aterrizajes exitosos que Lee-EKF y un 50% más que PPO en escenarios de parpadeo, manteniendo un rendimiento robusto en entornos ruidosos y en las condiciones más desafiantes que combinan parpadeo y ruido. Estos hallazgos subrayan el potencial de RPO-LSTM para resolver el problema del aterrizaje de UAV en objetivos en movimiento en medio de diversos grados de deterioro de sensores e interferencia ambiental.