Planificación de rutas sin colisiones para múltiples drones basada en aprendizaje por refuerzo seguro
Autores: Chen, Hong; Huang, Dan; Wang, Chenggang; Ding, Lu; Song, Lei; Liu, Hongtao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Planificación de rutas sin colisiones para múltiples drones basada en aprendizaje por refuerzo seguro
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Planificación de rutas
Entornos con obstáculos
Método de planificación de extremo a extremo
Garantía de seguridad
Sistemas de drones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje por refuerzo (RL) ha demostrado ser efectivo en la planificación de rutas. Sin embargo, generalmente requiere explorar un número suficiente de pares estado-acción, algunos de los cuales pueden ser inseguros cuando se implementan en entornos prácticos con obstáculos. Con este fin, este documento propone un método de planificación de extremo a extremo basado en un marco de RL sin modelo con optimización, que puede lograr un mejor rendimiento de aprendizaje con una garantía de seguridad. En primer lugar, para sistemas de drones de segundo orden, se introduce una función de barrera de control de alto orden (HOCBF) diferenciable para asegurar que la salida del algoritmo de planificación se mantenga en un rango seguro. Luego, se propone una capa de seguridad basada en la HOCBF, que proyecta las acciones de RL en un conjunto de soluciones factibles para garantizar una exploración segura. Finalmente, realizamos una simulación para la evitación de obstáculos por drones y validamos el método propuesto en el entorno de simulación. Los resultados experimentales demuestran una mejora significativa en comparación con el enfoque base. Específicamente, el método propuesto logró una reducción sustancial en el número promedio acumulativo de colisiones por drone durante el entrenamiento en comparación con la línea base. Además, en la fase de prueba, el método propuesto logró una mejora del 43% en la tasa de éxito de la tarea en relación con el MADDPG.
Descripción
El aprendizaje por refuerzo (RL) ha demostrado ser efectivo en la planificación de rutas. Sin embargo, generalmente requiere explorar un número suficiente de pares estado-acción, algunos de los cuales pueden ser inseguros cuando se implementan en entornos prácticos con obstáculos. Con este fin, este documento propone un método de planificación de extremo a extremo basado en un marco de RL sin modelo con optimización, que puede lograr un mejor rendimiento de aprendizaje con una garantía de seguridad. En primer lugar, para sistemas de drones de segundo orden, se introduce una función de barrera de control de alto orden (HOCBF) diferenciable para asegurar que la salida del algoritmo de planificación se mantenga en un rango seguro. Luego, se propone una capa de seguridad basada en la HOCBF, que proyecta las acciones de RL en un conjunto de soluciones factibles para garantizar una exploración segura. Finalmente, realizamos una simulación para la evitación de obstáculos por drones y validamos el método propuesto en el entorno de simulación. Los resultados experimentales demuestran una mejora significativa en comparación con el enfoque base. Específicamente, el método propuesto logró una reducción sustancial en el número promedio acumulativo de colisiones por drone durante el entrenamiento en comparación con la línea base. Además, en la fase de prueba, el método propuesto logró una mejora del 43% en la tasa de éxito de la tarea en relación con el MADDPG.