Diseño de un Sistema de Navegación Multi-Robot Basado en el Algoritmo de Optimización de Políticas Proximales
Autores: Wong, Ching-Chang; Weng, Kun-Duo; Yu, Bo-Yun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Diseño de un Sistema de Navegación Multi-Robot Basado en el Algoritmo de Optimización de Políticas Proximales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Robots
Conflictos de ruta
Tiempo de navegación
Aprendizaje profundo por refuerzo
Planificación de ruta global
Navegación multi-robot.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Cuantos más conflictos de ruta haya entre múltiples robots, más tiempo se tarda en evitarse entre sí, y más tiempo de navegación se requiere para que los robots completen todas las tareas. Este estudio diseña un sistema de navegación multi-robot basado en aprendizaje por refuerzo profundo para proporcionar un método innovador y efectivo para la planificación global de rutas en la navegación multi-robot. Puede planificar rutas con menos conflictos de ruta para todos los robots, de modo que se pueda reducir el tiempo total de navegación para que los robots completen todas las tareas. En comparación con los métodos existentes de planificación global de rutas para la navegación multi-robot, este estudio propone nuevas perspectivas y métodos. Se enfatiza la reducción del número de conflictos de ruta primero para disminuir el tiempo total de navegación. El sistema consta de una unidad de localización, una unidad de mapa del entorno, una unidad de planificación de rutas y una unidad de monitoreo del entorno, que proporciona funciones para calcular las coordenadas del robot, generar rutas preseleccionadas, seleccionar combinaciones óptimas de rutas, navegación del robot y monitoreo del entorno. Utilizamos mapas topológicos para simplificar la representación del mapa para la planificación de rutas multi-robot, de modo que el método propuesto pueda realizar la planificación de rutas para más robots en entornos más complejos. Se utiliza la optimización de políticas proximales (PPO) como el algoritmo para el aprendizaje por refuerzo profundo. Este estudio combina el método de selección de rutas del aprendizaje por refuerzo profundo con el algoritmo A*, lo que reduce efectivamente el número de conflictos de ruta en la planificación de rutas multi-robot y mejora el tiempo total de navegación. Además, utilizamos el algoritmo de obstáculos de velocidad recíproca para la planificación de rutas locales en el robot, combinado con el método de planificación global de rutas propuesto, para lograr una navegación multi-robot completa y efectiva. Algunos resultados de simulación en NVIDIA Isaac Sim muestran que para 1000 tareas de navegación multi-robot, el número máximo de conflictos de ruta que se puede reducir es de 60,375 bajo nueve condiciones de simulación.
Descripción
Cuantos más conflictos de ruta haya entre múltiples robots, más tiempo se tarda en evitarse entre sí, y más tiempo de navegación se requiere para que los robots completen todas las tareas. Este estudio diseña un sistema de navegación multi-robot basado en aprendizaje por refuerzo profundo para proporcionar un método innovador y efectivo para la planificación global de rutas en la navegación multi-robot. Puede planificar rutas con menos conflictos de ruta para todos los robots, de modo que se pueda reducir el tiempo total de navegación para que los robots completen todas las tareas. En comparación con los métodos existentes de planificación global de rutas para la navegación multi-robot, este estudio propone nuevas perspectivas y métodos. Se enfatiza la reducción del número de conflictos de ruta primero para disminuir el tiempo total de navegación. El sistema consta de una unidad de localización, una unidad de mapa del entorno, una unidad de planificación de rutas y una unidad de monitoreo del entorno, que proporciona funciones para calcular las coordenadas del robot, generar rutas preseleccionadas, seleccionar combinaciones óptimas de rutas, navegación del robot y monitoreo del entorno. Utilizamos mapas topológicos para simplificar la representación del mapa para la planificación de rutas multi-robot, de modo que el método propuesto pueda realizar la planificación de rutas para más robots en entornos más complejos. Se utiliza la optimización de políticas proximales (PPO) como el algoritmo para el aprendizaje por refuerzo profundo. Este estudio combina el método de selección de rutas del aprendizaje por refuerzo profundo con el algoritmo A*, lo que reduce efectivamente el número de conflictos de ruta en la planificación de rutas multi-robot y mejora el tiempo total de navegación. Además, utilizamos el algoritmo de obstáculos de velocidad recíproca para la planificación de rutas locales en el robot, combinado con el método de planificación global de rutas propuesto, para lograr una navegación multi-robot completa y efectiva. Algunos resultados de simulación en NVIDIA Isaac Sim muestran que para 1000 tareas de navegación multi-robot, el número máximo de conflictos de ruta que se puede reducir es de 60,375 bajo nueve condiciones de simulación.