Aprendizaje Profundo por Refuerzo para Reposición Óptima en Sistemas de Ensamblaje Estocásticos
Autores: Sid Ahmed Abdellahi, Lativa; Zoubeir, Zeinebou; Mohamed, Yahya; Haouba, Ahmedou; Hmetty, Sidi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje Profundo por Refuerzo para Reposición Óptima en Sistemas de Ensamblaje Estocásticos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Políticas de reposición
Incertidumbre
Proceso de decisión de Markov
Red Q Profunda
Gestión de inventario
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Este estudio presenta un enfoque basado en aprendizaje por refuerzo para optimizar las políticas de reabastecimiento en presencia de incertidumbre, con el objetivo de minimizar los costos totales, incluidos los costos de mantenimiento de inventario, escasez y pedidos. El enfoque se centra en sistemas de ensamblaje de un solo nivel, donde tanto los tiempos de entrega de componentes como la demanda de productos terminados están sujetos a aleatoriedad. El problema se formula como un proceso de decisión de Markov (MDP), en el cual un agente determina las cantidades óptimas de pedido para cada componente teniendo en cuenta los tiempos de entrega estocásticos y la variabilidad de la demanda. El algoritmo Deep Q-Network (DQN) se adapta y se emplea para aprender políticas de reabastecimiento óptimas durante un horizonte de planificación fijo. Para mejorar el rendimiento del aprendizaje, desarrollamos un entorno de simulación personalizado que captura interacciones multi-componente, tiempos de entrega aleatorios y demanda variable, junto con una estructura de costos modular y realista. El entorno permite transiciones de estado dinámicas, muestreo de tiempos de entrega y modelado flexible de recepción de pedidos, proporcionando un terreno de entrenamiento de alta fidelidad para el agente. Para mejorar aún más la convergencia y la calidad de la política, incorporamos mecanismos de búsqueda local y múltiples discretizaciones de espacio de acción por componente. Los resultados de la simulación muestran que el método propuesto converge a políticas de pedido estables después de aproximadamente 100 episodios. El agente logra un nivel de servicio promedio del 96.93%, y los eventos de agotamiento de stock se reducen en más del 100% en relación con las fases de entrenamiento tempranas. El sistema mantiene los inventarios de componentes dentro de rangos operativamente factibles, y los componentes de costos -mantenimiento, escasez y pedidos- se minimizan de manera consistente en 500 episodios de entrenamiento. Estos hallazgos resaltan el potencial del aprendizaje profundo por refuerzo como un enfoque basado en datos y adaptativo para la gestión de inventarios en cadenas de suministro complejas e inciertas.
Descripción
Este estudio presenta un enfoque basado en aprendizaje por refuerzo para optimizar las políticas de reabastecimiento en presencia de incertidumbre, con el objetivo de minimizar los costos totales, incluidos los costos de mantenimiento de inventario, escasez y pedidos. El enfoque se centra en sistemas de ensamblaje de un solo nivel, donde tanto los tiempos de entrega de componentes como la demanda de productos terminados están sujetos a aleatoriedad. El problema se formula como un proceso de decisión de Markov (MDP), en el cual un agente determina las cantidades óptimas de pedido para cada componente teniendo en cuenta los tiempos de entrega estocásticos y la variabilidad de la demanda. El algoritmo Deep Q-Network (DQN) se adapta y se emplea para aprender políticas de reabastecimiento óptimas durante un horizonte de planificación fijo. Para mejorar el rendimiento del aprendizaje, desarrollamos un entorno de simulación personalizado que captura interacciones multi-componente, tiempos de entrega aleatorios y demanda variable, junto con una estructura de costos modular y realista. El entorno permite transiciones de estado dinámicas, muestreo de tiempos de entrega y modelado flexible de recepción de pedidos, proporcionando un terreno de entrenamiento de alta fidelidad para el agente. Para mejorar aún más la convergencia y la calidad de la política, incorporamos mecanismos de búsqueda local y múltiples discretizaciones de espacio de acción por componente. Los resultados de la simulación muestran que el método propuesto converge a políticas de pedido estables después de aproximadamente 100 episodios. El agente logra un nivel de servicio promedio del 96.93%, y los eventos de agotamiento de stock se reducen en más del 100% en relación con las fases de entrenamiento tempranas. El sistema mantiene los inventarios de componentes dentro de rangos operativamente factibles, y los componentes de costos -mantenimiento, escasez y pedidos- se minimizan de manera consistente en 500 episodios de entrenamiento. Estos hallazgos resaltan el potencial del aprendizaje profundo por refuerzo como un enfoque basado en datos y adaptativo para la gestión de inventarios en cadenas de suministro complejas e inciertas.