Aprendizaje por Refuerzo para Optimizar la Política de Pedido de Latas con el Método de Horizonte Rodante
Autores: Noh, Jiseong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje por Refuerzo para Optimizar la Política de Pedido de Latas con el Método de Horizonte Rodante
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Enfoque
Algoritmos de aprendizaje por refuerzo
Método de horizonte rodante
Horizonte de predicción
RHM dinámico
Gestión de inventarios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Este estudio presenta un enfoque novedoso para un modelo de programación lineal entera mixta (MILP) para la gestión de inventarios periódicos que combina algoritmos de aprendizaje por refuerzo. El método de horizonte rodante (RHM) es un enfoque de optimización multiperiodo que se aplica para manejar nueva información en mercados actualizados. El RHM enfrenta una limitación al determinar fácilmente un horizonte de predicción; para superar esto, se desarrolla un RHM dinámico en el que los algoritmos de RL optimizan el horizonte de predicción del RHM. El vector de estado consistía en el nivel de pedido, la demanda real, el costo total, el costo de mantenimiento y el costo de pedidos atrasados, mientras que la acción incluía el horizonte de predicción y la previsión de demanda para el siguiente paso de tiempo. El rendimiento del modelo propuesto fue validado a través de dos experimentos realizados en casos con patrones de demanda estables e inciertos. Los resultados mostraron la efectividad del enfoque propuesto en la gestión de inventarios, particularmente cuando se utilizó el algoritmo de optimización de política proximal (PPO) para el entrenamiento en comparación con otros algoritmos de aprendizaje por refuerzo. Este estudio significa avances importantes tanto en los aspectos teóricos como prácticos de la gestión de inventarios de múltiples artículos.
Descripción
Este estudio presenta un enfoque novedoso para un modelo de programación lineal entera mixta (MILP) para la gestión de inventarios periódicos que combina algoritmos de aprendizaje por refuerzo. El método de horizonte rodante (RHM) es un enfoque de optimización multiperiodo que se aplica para manejar nueva información en mercados actualizados. El RHM enfrenta una limitación al determinar fácilmente un horizonte de predicción; para superar esto, se desarrolla un RHM dinámico en el que los algoritmos de RL optimizan el horizonte de predicción del RHM. El vector de estado consistía en el nivel de pedido, la demanda real, el costo total, el costo de mantenimiento y el costo de pedidos atrasados, mientras que la acción incluía el horizonte de predicción y la previsión de demanda para el siguiente paso de tiempo. El rendimiento del modelo propuesto fue validado a través de dos experimentos realizados en casos con patrones de demanda estables e inciertos. Los resultados mostraron la efectividad del enfoque propuesto en la gestión de inventarios, particularmente cuando se utilizó el algoritmo de optimización de política proximal (PPO) para el entrenamiento en comparación con otros algoritmos de aprendizaje por refuerzo. Este estudio significa avances importantes tanto en los aspectos teóricos como prácticos de la gestión de inventarios de múltiples artículos.