Orientación de Objetivos en la Evitación de Obstáculos con Aprendizaje Profundo por Refuerzo en un Espacio de Acción Continuo
Autores: Cimurs, Reinis; Lee, Jin Han; Suh, Il Hong
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Orientación de Objetivos en la Evitación de Obstáculos con Aprendizaje Profundo por Refuerzo en un Espacio de Acción Continuo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Propuesto
Evasión de obstáculos
Aprendizaje profundo por refuerzo
Sistema de navegación
Orientado a objetivos
Política determinista profunda de gradiente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
En este documento, proponemos un sistema de navegación de evitación de obstáculos orientado a objetivos basado en el aprendizaje profundo por refuerzo que utiliza información de profundidad en las escenas, así como la posición del objetivo en coordenadas polares como entradas de estado. Los señales de control para el movimiento del robot se generan en un espacio de acción continuo. Diseñamos una red de gradiente de política determinista profunda con la inclusión de capas de convolución separables en profundidad para procesar las grandes cantidades de información de imagen de profundidad secuencial. La navegación de evitación de obstáculos orientada a objetivos se realiza sin conocimiento previo del entorno o un mapa. Mostramos que a través de la red de aprendizaje profundo propuesta, se puede entrenar un modelo de evitación de colisiones orientado a objetivos de extremo a extremo sin ajuste manual o supervisión por parte de un operador humano. Entrenamos nuestro modelo en una simulación y la red resultante se transfiere directamente a otros entornos. Los experimentos muestran la capacidad de la red entrenada para navegar de forma segura alrededor de obstáculos y llegar a las posiciones de objetivo designadas en la simulación, así como en el mundo real. El método propuesto muestra una mayor fiabilidad que los enfoques comparados al navegar alrededor de obstáculos con formas complejas. Los experimentos muestran que el enfoque es capaz de evitar no solo obstáculos estáticos, sino también dinámicos.
Descripción
En este documento, proponemos un sistema de navegación de evitación de obstáculos orientado a objetivos basado en el aprendizaje profundo por refuerzo que utiliza información de profundidad en las escenas, así como la posición del objetivo en coordenadas polares como entradas de estado. Los señales de control para el movimiento del robot se generan en un espacio de acción continuo. Diseñamos una red de gradiente de política determinista profunda con la inclusión de capas de convolución separables en profundidad para procesar las grandes cantidades de información de imagen de profundidad secuencial. La navegación de evitación de obstáculos orientada a objetivos se realiza sin conocimiento previo del entorno o un mapa. Mostramos que a través de la red de aprendizaje profundo propuesta, se puede entrenar un modelo de evitación de colisiones orientado a objetivos de extremo a extremo sin ajuste manual o supervisión por parte de un operador humano. Entrenamos nuestro modelo en una simulación y la red resultante se transfiere directamente a otros entornos. Los experimentos muestran la capacidad de la red entrenada para navegar de forma segura alrededor de obstáculos y llegar a las posiciones de objetivo designadas en la simulación, así como en el mundo real. El método propuesto muestra una mayor fiabilidad que los enfoques comparados al navegar alrededor de obstáculos con formas complejas. Los experimentos muestran que el enfoque es capaz de evitar no solo obstáculos estáticos, sino también dinámicos.