Control continuo de un cargador subterráneo utilizando aprendizaje por refuerzo profundo
Autores: Backman, Sofi; Lindmark, Daniel; Bodin, Kenneth; Servin, Martin; Mörk, Joakim; Löfgren, Håkan
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Control continuo de un cargador subterráneo utilizando aprendizaje por refuerzo profundo
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Aprendizaje por refuerzo
Cargador subterráneo
Red neuronal profunda multiagente
Ciclo de carga
Algoritmo de actor-crítico suave
Uso de energía
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Se investigó el control de un cargador subterráneo mediante aprendizaje por refuerzo en un entorno simulado utilizando un enfoque de red neuronal profunda multiagente. Al inicio de cada ciclo de carga, un agente selecciona la posición de excavación a partir de una imagen de cámara de profundidad de un montón de roca fragmentada. Un segundo agente es responsable del control continuo del vehículo, con el objetivo de llenar el cubo en el punto de carga seleccionado mientras evita colisiones, quedarse atascado o perder tracción en el suelo. Esto se basa en sensores de movimiento y fuerza, así como en una cámara y lidar. Utilizando un algoritmo de actor-crítico suave, los agentes aprenden políticas para un llenado eficiente del cubo a lo largo de muchos ciclos de carga subsiguientes, con una clara capacidad de adaptarse al entorno cambiante. Los mejores resultados, en promedio, el 75% de la capacidad máxima, se obtuvieron al incluir una penalización por el uso de energía en la recompensa.
Descripción
Se investigó el control de un cargador subterráneo mediante aprendizaje por refuerzo en un entorno simulado utilizando un enfoque de red neuronal profunda multiagente. Al inicio de cada ciclo de carga, un agente selecciona la posición de excavación a partir de una imagen de cámara de profundidad de un montón de roca fragmentada. Un segundo agente es responsable del control continuo del vehículo, con el objetivo de llenar el cubo en el punto de carga seleccionado mientras evita colisiones, quedarse atascado o perder tracción en el suelo. Esto se basa en sensores de movimiento y fuerza, así como en una cámara y lidar. Utilizando un algoritmo de actor-crítico suave, los agentes aprenden políticas para un llenado eficiente del cubo a lo largo de muchos ciclos de carga subsiguientes, con una clara capacidad de adaptarse al entorno cambiante. Los mejores resultados, en promedio, el 75% de la capacidad máxima, se obtuvieron al incluir una penalización por el uso de energía en la recompensa.