Planificación de Tráfico Múltiple de UAS Basada en Red Neuronal Profunda Q con Repetición de Experiencia en Perspectiva y Consideraciones Económicas
Autores: Seah, Shao Xuan; Srigrarom, Sutthiphong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Planificación de Tráfico Múltiple de UAS Basada en Red Neuronal Profunda Q con Repetición de Experiencia en Perspectiva y Consideraciones Económicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Aprendizaje profundo por refuerzo
Planificación de tráfico aéreo multiagente
Evitación de colisiones
Red Neuronal Profunda de Q (DQN)
Proceso de decisión de Markov (MDP)
Análisis económico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Este documento explora el uso del aprendizaje por refuerzo profundo en la resolución del problema de planificación de tráfico aéreo multi-agente (caminos individuales) y evitación de colisiones para múltiples UAS, como el de una red de drones de carga. Específicamente, se adopta y entrena el marco de Red Neuronal Profunda Q (DQN) con Repetición de Experiencia en Retrospectiva en un espacio de estado tridimensional que representa un entorno urbano congestionado con obstáculos dinámicos. Al formalizar un proceso de decisión de Markov (MDP), se varían varios parámetros de vuelo y control entre simulaciones de entrenamiento para estudiar sus efectos en el rendimiento del agente. Se formulan tanto MDPs completamente observables (FOMDPs) como MDPs parcialmente observables (POMDPs) para entender el papel de la modelación de señales de recompensa en el rendimiento del entrenamiento. Mientras que las técnicas convencionales de planificación y optimización del tráfico se evalúan en función de la longitud del camino o el tiempo, este documento tiene como objetivo incorporar un análisis económico considerando fuentes de costo tangibles e intangibles, como el costo de energía, el valor del tiempo (VOT) y el valor de la fiabilidad (VOR). Al comparar los resultados de una integración de múltiples fuentes de costo, este documento puede evaluar mejor el impacto de varios parámetros en la eficiencia. Para explorar más a fondo la viabilidad de la planificación de tráfico de múltiples UAS, como las redes de drones de carga, los agentes entrenados también se someten a entornos de red multi-agente punto a punto y de hub y radio. En estas simulaciones, se generan órdenes de entrega utilizando un simulador de eventos discretos con una tasa de llegada, que se varía para investigar el efecto de la demanda de viaje en los costos económicos. Los resultados de la simulación apuntan a la importancia de la ingeniería de señales, ya que las señales de recompensa juegan un papel crucial en la modelación de refuerzos. Los resultados también reflejan un aumento en los costos para entornos donde surgen la congestión y la incertidumbre en el tiempo de llegada debido a la presencia de otros agentes en la red.
Descripción
Este documento explora el uso del aprendizaje por refuerzo profundo en la resolución del problema de planificación de tráfico aéreo multi-agente (caminos individuales) y evitación de colisiones para múltiples UAS, como el de una red de drones de carga. Específicamente, se adopta y entrena el marco de Red Neuronal Profunda Q (DQN) con Repetición de Experiencia en Retrospectiva en un espacio de estado tridimensional que representa un entorno urbano congestionado con obstáculos dinámicos. Al formalizar un proceso de decisión de Markov (MDP), se varían varios parámetros de vuelo y control entre simulaciones de entrenamiento para estudiar sus efectos en el rendimiento del agente. Se formulan tanto MDPs completamente observables (FOMDPs) como MDPs parcialmente observables (POMDPs) para entender el papel de la modelación de señales de recompensa en el rendimiento del entrenamiento. Mientras que las técnicas convencionales de planificación y optimización del tráfico se evalúan en función de la longitud del camino o el tiempo, este documento tiene como objetivo incorporar un análisis económico considerando fuentes de costo tangibles e intangibles, como el costo de energía, el valor del tiempo (VOT) y el valor de la fiabilidad (VOR). Al comparar los resultados de una integración de múltiples fuentes de costo, este documento puede evaluar mejor el impacto de varios parámetros en la eficiencia. Para explorar más a fondo la viabilidad de la planificación de tráfico de múltiples UAS, como las redes de drones de carga, los agentes entrenados también se someten a entornos de red multi-agente punto a punto y de hub y radio. En estas simulaciones, se generan órdenes de entrega utilizando un simulador de eventos discretos con una tasa de llegada, que se varía para investigar el efecto de la demanda de viaje en los costos económicos. Los resultados de la simulación apuntan a la importancia de la ingeniería de señales, ya que las señales de recompensa juegan un papel crucial en la modelación de refuerzos. Los resultados también reflejan un aumento en los costos para entornos donde surgen la congestión y la incertidumbre en el tiempo de llegada debido a la presencia de otros agentes en la red.