Aprendizaje por refuerzo profundo con retroalimentación correctiva para el aterrizaje autónomo de UAV en una plataforma móvil
Autores: Wu, Lizhen; Wang, Chang; Zhang, Pengpeng; Wei, Changyun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje por refuerzo profundo con retroalimentación correctiva para el aterrizaje autónomo de UAV en una plataforma móvil
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Aterrizaje
Controlador PID
Aprendizaje profundo por refuerzo
Cuadricóptero
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aterrizaje autónomo de vehículos aéreos no tripulados (UAV) sigue siendo un desafío en entornos inciertos, por ejemplo, aterrizar en una plataforma terrestre móvil como un vehículo terrestre no tripulado (UGV) sin conocer su dinámica de movimiento. Un controlador PID (Proporcional, Integral, Derivativo) tradicional es una opción para la tarea de aterrizaje del UAV, pero sufre el problema de la sintonización manual de parámetros, que se vuelve intratable si las condiciones iniciales de aterrizaje cambian o la plataforma móvil sigue moviéndose. En este artículo, diseñamos un controlador novedoso basado en aprendizaje que integra un módulo PID estándar con un módulo de aprendizaje por refuerzo profundo, que puede optimizar automáticamente los parámetros PID para el control de velocidad. Además, la retroalimentación correctiva basada en heurísticas de sintonización de parámetros puede acelerar el proceso de aprendizaje en comparación con los algoritmos DRL tradicionales que suelen ser lentos. Además, la política aprendida hace que el aterrizaje del UAV sea suave y rápido al permitir que el UAV ajuste su velocidad de manera adaptativa según la dinámica del entorno. Demostramos la efectividad del algoritmo propuesto en una variedad de tareas de aterrizaje de UAV quadrotor con configuraciones ambientales tanto estáticas como dinámicas.
Descripción
El aterrizaje autónomo de vehículos aéreos no tripulados (UAV) sigue siendo un desafío en entornos inciertos, por ejemplo, aterrizar en una plataforma terrestre móvil como un vehículo terrestre no tripulado (UGV) sin conocer su dinámica de movimiento. Un controlador PID (Proporcional, Integral, Derivativo) tradicional es una opción para la tarea de aterrizaje del UAV, pero sufre el problema de la sintonización manual de parámetros, que se vuelve intratable si las condiciones iniciales de aterrizaje cambian o la plataforma móvil sigue moviéndose. En este artículo, diseñamos un controlador novedoso basado en aprendizaje que integra un módulo PID estándar con un módulo de aprendizaje por refuerzo profundo, que puede optimizar automáticamente los parámetros PID para el control de velocidad. Además, la retroalimentación correctiva basada en heurísticas de sintonización de parámetros puede acelerar el proceso de aprendizaje en comparación con los algoritmos DRL tradicionales que suelen ser lentos. Además, la política aprendida hace que el aterrizaje del UAV sea suave y rápido al permitir que el UAV ajuste su velocidad de manera adaptativa según la dinámica del entorno. Demostramos la efectividad del algoritmo propuesto en una variedad de tareas de aterrizaje de UAV quadrotor con configuraciones ambientales tanto estáticas como dinámicas.