logo móvil
Contáctanos

Aprendizaje Profundo por Refuerzo para Reposición Óptima en Sistemas de Ensamblaje Estocásticos

Autores: Sid Ahmed Abdellahi, Lativa; Zoubeir, Zeinebou; Mohamed, Yahya; Haouba, Ahmedou; Hmetty, Sidi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje Profundo por Refuerzo para Reposición Óptima en Sistemas de Ensamblaje Estocásticos


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo
Políticas de reposición
Incertidumbre
Proceso de decisión de Markov
Red Q Profunda
Gestión de inventario

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
Este estudio presenta un enfoque basado en aprendizaje por refuerzo para optimizar las políticas de reabastecimiento en presencia de incertidumbre, con el objetivo de minimizar los costos totales, incluidos los costos de mantenimiento de inventario, escasez y pedidos. El enfoque se centra en sistemas de ensamblaje de un solo nivel, donde tanto los tiempos de entrega de componentes como la demanda de productos terminados están sujetos a aleatoriedad. El problema se formula como un proceso de decisión de Markov (MDP), en el cual un agente determina las cantidades óptimas de pedido para cada componente teniendo en cuenta los tiempos de entrega estocásticos y la variabilidad de la demanda. El algoritmo Deep Q-Network (DQN) se adapta y se emplea para aprender políticas de reabastecimiento óptimas durante un horizonte de planificación fijo. Para mejorar el rendimiento del aprendizaje, desarrollamos un entorno de simulación personalizado que captura interacciones multi-componente, tiempos de entrega aleatorios y demanda variable, junto con una estructura de costos modular y realista. El entorno permite transiciones de estado dinámicas, muestreo de tiempos de entrega y modelado flexible de recepción de pedidos, proporcionando un terreno de entrenamiento de alta fidelidad para el agente. Para mejorar aún más la convergencia y la calidad de la política, incorporamos mecanismos de búsqueda local y múltiples discretizaciones de espacio de acción por componente. Los resultados de la simulación muestran que el método propuesto converge a políticas de pedido estables después de aproximadamente 100 episodios. El agente logra un nivel de servicio promedio del 96.93%, y los eventos de agotamiento de stock se reducen en más del 100% en relación con las fases de entrenamiento tempranas. El sistema mantiene los inventarios de componentes dentro de rangos operativamente factibles, y los componentes de costos -mantenimiento, escasez y pedidos- se minimizan de manera consistente en 500 episodios de entrenamiento. Estos hallazgos resaltan el potencial del aprendizaje profundo por refuerzo como un enfoque basado en datos y adaptativo para la gestión de inventarios en cadenas de suministro complejas e inciertas.

Otros recursos que podrían interesarte

Temas Virtualpro