logo móvil
Contáctanos

Planificación de rutas sin colisiones para múltiples drones basada en aprendizaje por refuerzo seguro

Autores: Chen, Hong; Huang, Dan; Wang, Chenggang; Ding, Lu; Song, Lei; Liu, Hongtao

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Planificación de rutas sin colisiones para múltiples drones basada en aprendizaje por refuerzo seguro


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Planificación de rutas
Entornos con obstáculos
Método de planificación de extremo a extremo
Garantía de seguridad
Sistemas de drones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo (RL) ha demostrado ser efectivo en la planificación de rutas. Sin embargo, generalmente requiere explorar un número suficiente de pares estado-acción, algunos de los cuales pueden ser inseguros cuando se implementan en entornos prácticos con obstáculos. Con este fin, este documento propone un método de planificación de extremo a extremo basado en un marco de RL sin modelo con optimización, que puede lograr un mejor rendimiento de aprendizaje con una garantía de seguridad. En primer lugar, para sistemas de drones de segundo orden, se introduce una función de barrera de control de alto orden (HOCBF) diferenciable para asegurar que la salida del algoritmo de planificación se mantenga en un rango seguro. Luego, se propone una capa de seguridad basada en la HOCBF, que proyecta las acciones de RL en un conjunto de soluciones factibles para garantizar una exploración segura. Finalmente, realizamos una simulación para la evitación de obstáculos por drones y validamos el método propuesto en el entorno de simulación. Los resultados experimentales demuestran una mejora significativa en comparación con el enfoque base. Específicamente, el método propuesto logró una reducción sustancial en el número promedio acumulativo de colisiones por drone durante el entrenamiento en comparación con la línea base. Además, en la fase de prueba, el método propuesto logró una mejora del 43% en la tasa de éxito de la tarea en relación con el MADDPG.

Otros recursos que podrían interesarte

Temas Virtualpro