Un controlador basado en aprendizaje por refuerzo multiobjetivo para la navegación autónoma en entornos desafiantes
Autores: Ramezani Dooraki, Amir; Lee, Deok-Jin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un controlador basado en aprendizaje por refuerzo multiobjetivo para la navegación autónoma en entornos desafiantes
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Controlador
Navegación autónoma
Aprendizaje profundo por refuerzo
UAV
Obstáculos
Recompensa multiobjetivo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
En este artículo, presentamos un controlador autoentrenado para la navegación autónoma en entornos desafiantes estáticos y dinámicos (con paredes y redes en movimiento) que incluyen árboles, redes, ventanas y tuberías, utilizando aprendizaje profundo por refuerzo, entrenado simultáneamente con múltiples recompensas. Entrenamos nuestro algoritmo de RL de manera multiobjetivo. Nuestro algoritmo aprende a generar acciones continuas para controlar el UAV. Nuestro objetivo es generar puntos de referencia para el UAV de tal manera que alcance un área objetivo (mostrada por una imagen RGB) mientras evita obstáculos estáticos y dinámicos. En este texto, utilizamos la imagen RGB-D como entrada para el algoritmo, y aprende a controlar el UAV en 3 grados de libertad (x, y y z). Entrenamos nuestro robot en entornos simulados por Gazebo sim. Para la comunicación entre nuestro algoritmo y los entornos simulados, utilizamos el sistema operativo de robots. Finalmente, visualizamos las trayectorias generadas por nuestros algoritmos entrenados utilizando varios métodos e ilustramos nuestros resultados que muestran claramente la capacidad de nuestro algoritmo para aprender a maximizar la recompensa multiobjetivo definida.
Descripción
En este artículo, presentamos un controlador autoentrenado para la navegación autónoma en entornos desafiantes estáticos y dinámicos (con paredes y redes en movimiento) que incluyen árboles, redes, ventanas y tuberías, utilizando aprendizaje profundo por refuerzo, entrenado simultáneamente con múltiples recompensas. Entrenamos nuestro algoritmo de RL de manera multiobjetivo. Nuestro algoritmo aprende a generar acciones continuas para controlar el UAV. Nuestro objetivo es generar puntos de referencia para el UAV de tal manera que alcance un área objetivo (mostrada por una imagen RGB) mientras evita obstáculos estáticos y dinámicos. En este texto, utilizamos la imagen RGB-D como entrada para el algoritmo, y aprende a controlar el UAV en 3 grados de libertad (x, y y z). Entrenamos nuestro robot en entornos simulados por Gazebo sim. Para la comunicación entre nuestro algoritmo y los entornos simulados, utilizamos el sistema operativo de robots. Finalmente, visualizamos las trayectorias generadas por nuestros algoritmos entrenados utilizando varios métodos e ilustramos nuestros resultados que muestran claramente la capacidad de nuestro algoritmo para aprender a maximizar la recompensa multiobjetivo definida.