Optimizando un Problema de Enrutamiento Dinámico de Vehículos con Aprendizaje por Refuerzo Profundo: Analizando Componentes del Espacio de Estados
Autores: Konovalenko, Anna; Hvattum, Lars Magnus
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Optimizando un Problema de Enrutamiento Dinámico de Vehículos con Aprendizaje por Refuerzo Profundo: Analizando Componentes del Espacio de Estados
Categoría
Gestión y administración
Subcategoría
Gestión logística
Palabras clave
Problema dinámico de enrutamiento de vehículos
Aplicación
Decisiones en tiempo real
Aprendizaje por refuerzo
Componentes del espacio de estados
Rendimiento del algoritmo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El problema dinámico de enrutamiento de vehículos (DVRP) es un problema de optimización complejo que es crucial para aplicaciones como la entrega de última milla. Nuestro objetivo es desarrollar una aplicación que pueda tomar decisiones en tiempo real para maximizar el rendimiento total mientras se adapta a la naturaleza dinámica de los pedidos entrantes. Formulamos el DVRP como un problema de enrutamiento de vehículos donde las nuevas solicitudes de clientes llegan de manera dinámica, requiriendo decisiones inmediatas de aceptación o rechazo. Este estudio aprovecha el aprendizaje por refuerzo (RL), un paradigma de aprendizaje automático que opera a través de decisiones impulsadas por retroalimentación, para abordar el DVRP. Presentamos una formulación detallada de RL e investigamos sistemáticamente los impactos de varios componentes del espacio de estados en el rendimiento del algoritmo. Nuestro enfoque implica modificar incrementalmente el espacio de estados, incluyendo el análisis de los impactos de componentes individuales, la aplicación de métodos de transformación de datos y la incorporación de características derivadas. Nuestros hallazgos demuestran que un espacio de estados cuidadosamente diseñado en la formulación del DVRP mejora significativamente el rendimiento de RL. Notablemente, la incorporación de características derivadas y la aplicación selectiva de transformación de características mejoraron las capacidades de toma de decisiones del modelo. La combinación de todas las mejoras llevó a una mejora estadísticamente significativa en los resultados en comparación con la formulación básica del estado. Esta investigación proporciona información sobre el modelado de RL para DVRPs, destacando la importancia del diseño del espacio de estados. El enfoque propuesto ofrece un marco flexible que es aplicable a varias variantes del DVRP, con potencial para validación utilizando datos del mundo real.
Descripción
El problema dinámico de enrutamiento de vehículos (DVRP) es un problema de optimización complejo que es crucial para aplicaciones como la entrega de última milla. Nuestro objetivo es desarrollar una aplicación que pueda tomar decisiones en tiempo real para maximizar el rendimiento total mientras se adapta a la naturaleza dinámica de los pedidos entrantes. Formulamos el DVRP como un problema de enrutamiento de vehículos donde las nuevas solicitudes de clientes llegan de manera dinámica, requiriendo decisiones inmediatas de aceptación o rechazo. Este estudio aprovecha el aprendizaje por refuerzo (RL), un paradigma de aprendizaje automático que opera a través de decisiones impulsadas por retroalimentación, para abordar el DVRP. Presentamos una formulación detallada de RL e investigamos sistemáticamente los impactos de varios componentes del espacio de estados en el rendimiento del algoritmo. Nuestro enfoque implica modificar incrementalmente el espacio de estados, incluyendo el análisis de los impactos de componentes individuales, la aplicación de métodos de transformación de datos y la incorporación de características derivadas. Nuestros hallazgos demuestran que un espacio de estados cuidadosamente diseñado en la formulación del DVRP mejora significativamente el rendimiento de RL. Notablemente, la incorporación de características derivadas y la aplicación selectiva de transformación de características mejoraron las capacidades de toma de decisiones del modelo. La combinación de todas las mejoras llevó a una mejora estadísticamente significativa en los resultados en comparación con la formulación básica del estado. Esta investigación proporciona información sobre el modelado de RL para DVRPs, destacando la importancia del diseño del espacio de estados. El enfoque propuesto ofrece un marco flexible que es aplicable a varias variantes del DVRP, con potencial para validación utilizando datos del mundo real.