Navegación de Robots en Entornos Congestionados: Un Enfoque de Aprendizaje por Refuerzo
Autores: Caruso, Matteo; Regolin, Enrico; Camerota Verdù, Federico Julian; Russo, Stefano Alberto; Bortolussi, Luca; Seriani, Stefano
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Navegación de Robots en Entornos Congestionados: Un Enfoque de Aprendizaje por Refuerzo
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Robot móvil
Navegación
Controladores neuronales
Entorno concurrido
Aprendizaje por Refuerzo
Red neuronal convolucional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
Para un robot móvil, la navegación en un espacio densamente concurrido puede ser una tarea desafiante y a veces imposible, especialmente con técnicas tradicionales. En este artículo, presentamos un marco para entrenar controladores neuronales para robots móviles de tracción diferencial que deben navegar de manera segura en un entorno concurrido mientras intentan alcanzar una ubicación objetivo. Para aprender la política del robot, entrenamos una red neuronal convolucional utilizando dos algoritmos de Aprendizaje por Refuerzo, (DQN) y (A3C), y desarrollamos un pipeline de entrenamiento que permite escalar el proceso a varios nodos de computación. Mostramos que el procedimiento de entrenamiento asíncrono en A3C puede aprovecharse para entrenar rápidamente controladores neuronales y probarlos en un robot real en un entorno concurrido.
Descripción
Para un robot móvil, la navegación en un espacio densamente concurrido puede ser una tarea desafiante y a veces imposible, especialmente con técnicas tradicionales. En este artículo, presentamos un marco para entrenar controladores neuronales para robots móviles de tracción diferencial que deben navegar de manera segura en un entorno concurrido mientras intentan alcanzar una ubicación objetivo. Para aprender la política del robot, entrenamos una red neuronal convolucional utilizando dos algoritmos de Aprendizaje por Refuerzo, (DQN) y (A3C), y desarrollamos un pipeline de entrenamiento que permite escalar el proceso a varios nodos de computación. Mostramos que el procedimiento de entrenamiento asíncrono en A3C puede aprovecharse para entrenar rápidamente controladores neuronales y probarlos en un robot real en un entorno concurrido.