Un marco de aprendizaje por refuerzo de extremo a extremo basado en visión para el seguimiento de objetivos con drones
Autores: Zhao, Xun; Huang, Xinjian; Cheng, Jianheng; Xia, Zhendong; Tu, Zhiheng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un marco de aprendizaje por refuerzo de extremo a extremo basado en visión para el seguimiento de objetivos con drones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Seguimiento de objetivos con drones
Aprendizaje por refuerzo
Marco VTD3
Trayectorias de movimiento de objetivos complejos
Rendimiento de seguimiento
Marco de extremo a extremo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
El seguimiento de objetivos con drones, que implica instruir el movimiento del dron para seguir un objetivo en movimiento, enfrenta varios desafíos: (1) los métodos tradicionales necesitan una estimación precisa del estado tanto del dron como del objetivo; (2) los controladores Proporcional-Derivados (PD) convencionales requieren una tediosa sintonización de parámetros y luchan con propiedades no lineales; y (3) los métodos de aprendizaje por refuerzo, aunque prometedores, dependen de la autoestimación del estado del dron, lo que añade complejidad y carga computacional y reduce la fiabilidad. Para abordar estos desafíos, este estudio propone un innovador marco de aprendizaje por refuerzo sin modelo y de extremo a extremo, el VTD3 (Gradient Policy Determinista Profundo Doble Basado en Visión), para tareas de seguimiento de objetivos con drones. Este marco se centra en controlar el dron para seguir un objetivo en movimiento mientras mantiene una distancia específica. VTD3 es un algoritmo de seguimiento puramente basado en visión que integra el detector YOLOv8, el algoritmo de seguimiento BoT-SORT y el algoritmo de Gradient Policy Determinista Profundo Doble (TD3). Disminuye la dependencia del GPS y otros sensores mientras mejora simultáneamente la capacidad de seguimiento para trayectorias de movimiento de objetivos complejos. En un entorno simulado, evaluamos el rendimiento de seguimiento de VTD3 a través de cuatro trayectorias de movimiento de objetivos complejas (triangular, cuadrada, diente de sierra y onda cuadrada, incluyendo escenarios con oclusiones). Los resultados experimentales indican que nuestro algoritmo de aprendizaje por refuerzo VTD3 propuesto supera sustancialmente a los controladores PD convencionales en aplicaciones de seguimiento de objetivos con drones. A través de varias trayectorias de objetivos, el algoritmo VTD3 demuestra una reducción significativa en los errores de seguimiento promedio a lo largo del eje X y el eje Y de hasta un 34.35% y un 45.36%, respectivamente. Además, logra una mejora notable de hasta un 66.10% en la precisión del control de altitud. En términos de suavidad del movimiento, el algoritmo VTD3 mejora notablemente las métricas de rendimiento, con mejoras de hasta un 37.70% en el temblor y un 60.64% en el Jerk RMS. Los resultados empíricos verifican la superioridad y viabilidad de nuestro marco VTD3 propuesto para el seguimiento de objetivos con drones.
Descripción
El seguimiento de objetivos con drones, que implica instruir el movimiento del dron para seguir un objetivo en movimiento, enfrenta varios desafíos: (1) los métodos tradicionales necesitan una estimación precisa del estado tanto del dron como del objetivo; (2) los controladores Proporcional-Derivados (PD) convencionales requieren una tediosa sintonización de parámetros y luchan con propiedades no lineales; y (3) los métodos de aprendizaje por refuerzo, aunque prometedores, dependen de la autoestimación del estado del dron, lo que añade complejidad y carga computacional y reduce la fiabilidad. Para abordar estos desafíos, este estudio propone un innovador marco de aprendizaje por refuerzo sin modelo y de extremo a extremo, el VTD3 (Gradient Policy Determinista Profundo Doble Basado en Visión), para tareas de seguimiento de objetivos con drones. Este marco se centra en controlar el dron para seguir un objetivo en movimiento mientras mantiene una distancia específica. VTD3 es un algoritmo de seguimiento puramente basado en visión que integra el detector YOLOv8, el algoritmo de seguimiento BoT-SORT y el algoritmo de Gradient Policy Determinista Profundo Doble (TD3). Disminuye la dependencia del GPS y otros sensores mientras mejora simultáneamente la capacidad de seguimiento para trayectorias de movimiento de objetivos complejos. En un entorno simulado, evaluamos el rendimiento de seguimiento de VTD3 a través de cuatro trayectorias de movimiento de objetivos complejas (triangular, cuadrada, diente de sierra y onda cuadrada, incluyendo escenarios con oclusiones). Los resultados experimentales indican que nuestro algoritmo de aprendizaje por refuerzo VTD3 propuesto supera sustancialmente a los controladores PD convencionales en aplicaciones de seguimiento de objetivos con drones. A través de varias trayectorias de objetivos, el algoritmo VTD3 demuestra una reducción significativa en los errores de seguimiento promedio a lo largo del eje X y el eje Y de hasta un 34.35% y un 45.36%, respectivamente. Además, logra una mejora notable de hasta un 66.10% en la precisión del control de altitud. En términos de suavidad del movimiento, el algoritmo VTD3 mejora notablemente las métricas de rendimiento, con mejoras de hasta un 37.70% en el temblor y un 60.64% en el Jerk RMS. Los resultados empíricos verifican la superioridad y viabilidad de nuestro marco VTD3 propuesto para el seguimiento de objetivos con drones.