Uav seguimiento dinámico de objetos con aprendizaje por refuerzo de visión profunda ligera
Autores: Nguyen, Hy; Thudumu, Srikanth; Du, Hung; Mouzakis, Kon; Vasa, Rajesh
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Uav seguimiento dinámico de objetos con aprendizaje por refuerzo de visión profunda ligera
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje profundo por refuerzo
Vehículos aéreos no tripulados
Seguimiento de objetos
Aprendizaje profundo de visión ligera por refuerzo
Red Q profunda
Gradiente de política determinista profunda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Varias aproximaciones han aplicado Aprendizaje Profundo por Refuerzo (DRL, por sus siglas en inglés) a Vehículos Aéreos No Tripulados (UAVs) para realizar seguimiento autónomo de objetos. Sin embargo, estos métodos son intensivos en recursos y requieren conocimiento previo del entorno, lo que los hace difíciles de utilizar en aplicaciones del mundo real. En este documento, proponemos un marco de Aprendizaje Profundo de Visión Ligero por Refuerzo (LDVRL) para el seguimiento dinámico de objetos que utiliza la cámara como única fuente de entrada. Nuestro marco emplea varias técnicas como pilas de fotogramas, mapas de segmentación de la simulación e imágenes de profundidad para reducir el costo computacional general. Realizamos el experimento con una Red Q Profunda no dispersa (DQN) (basada en el valor) y un Gradiente de Política Determinista Profundo (DDPG) (actor-critic) para probar la adaptabilidad de nuestro marco con diferentes métodos e identificar cuál método de DRL es el más adecuado para esta tarea. Al final, se elige un DQN por varias razones. En primer lugar, un DQN tiene menos redes que un DDPG, reduciendo así los recursos computacionales en los UAVs físicos. En segundo lugar, es sorprendente que aunque un DQN sea más pequeño en tamaño de modelo que un DDPG, aún funciona mejor en esta tarea específica. Finalmente, un DQN es muy práctico para esta tarea debido a la capacidad de operar en un espacio de estado continuo. Utilizando un entorno de simulación de alta fidelidad, se verifica que nuestro enfoque propuesto es efectivo.
Descripción
Varias aproximaciones han aplicado Aprendizaje Profundo por Refuerzo (DRL, por sus siglas en inglés) a Vehículos Aéreos No Tripulados (UAVs) para realizar seguimiento autónomo de objetos. Sin embargo, estos métodos son intensivos en recursos y requieren conocimiento previo del entorno, lo que los hace difíciles de utilizar en aplicaciones del mundo real. En este documento, proponemos un marco de Aprendizaje Profundo de Visión Ligero por Refuerzo (LDVRL) para el seguimiento dinámico de objetos que utiliza la cámara como única fuente de entrada. Nuestro marco emplea varias técnicas como pilas de fotogramas, mapas de segmentación de la simulación e imágenes de profundidad para reducir el costo computacional general. Realizamos el experimento con una Red Q Profunda no dispersa (DQN) (basada en el valor) y un Gradiente de Política Determinista Profundo (DDPG) (actor-critic) para probar la adaptabilidad de nuestro marco con diferentes métodos e identificar cuál método de DRL es el más adecuado para esta tarea. Al final, se elige un DQN por varias razones. En primer lugar, un DQN tiene menos redes que un DDPG, reduciendo así los recursos computacionales en los UAVs físicos. En segundo lugar, es sorprendente que aunque un DQN sea más pequeño en tamaño de modelo que un DDPG, aún funciona mejor en esta tarea específica. Finalmente, un DQN es muy práctico para esta tarea debido a la capacidad de operar en un espacio de estado continuo. Utilizando un entorno de simulación de alta fidelidad, se verifica que nuestro enfoque propuesto es efectivo.