Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución
Autores: Zhang, Shuo; Xu, Jianyou; Qiao, Yingli
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Producción integrada
Programación de distribución
Fabricación distribuida
Aprendizaje por refuerzo
Metaheurísticas
Q-learning
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
En los últimos años, la programación y planificación integradas de producción y distribución (IPDS) se ha convertido en un tema importante en la gestión de la cadena de suministro. Sin embargo, la IPDS considerando entornos de fabricación distribuida rara vez se investiga. Además, el aprendizaje por refuerzo rara vez se combina con metaheurísticas para abordar problemas de IPDS. En este trabajo, se estudia un problema integrado de programación de flujo de taller distribuido y distribución, y se proporciona un modelo matemático. Debido a la naturaleza NP-hard del problema, se diseña una optimización de tormenta cerebral basada en Q-learning multiobjetivo para minimizar el tiempo de ejecución y el total ponderado de prontitud y tardanza. En el enfoque presentado, se utiliza un método de representación de doble cadena y se desarrolla un método de agrupación dinámica en la fase de agrupación. En la fase de generación, se introducen una estrategia de búsqueda global, una estrategia de búsqueda local y una estrategia de recocido simulado. Se realiza un proceso de Q-learning para elegir dinámicamente la estrategia de generación. Consta de cuatro acciones definidas como las combinaciones de estas estrategias, cuatro estados descritos por métricas de convergencia y uniformidad, una función de recompensa y un método mejorado de -greedy. En la fase de selección, se adopta un método de selección recién definido. Para evaluar la efectividad del enfoque propuesto, se aplica un grupo de comparación que consiste en cuatro metaheurísticas prevalentes y un optimizador CPLEX para realizar experimentos numéricos y pruebas estadísticas. Los resultados sugieren que el enfoque diseñado supera a sus competidores en la obtención de soluciones prometedoras al abordar el problema considerado.
Descripción
En los últimos años, la programación y planificación integradas de producción y distribución (IPDS) se ha convertido en un tema importante en la gestión de la cadena de suministro. Sin embargo, la IPDS considerando entornos de fabricación distribuida rara vez se investiga. Además, el aprendizaje por refuerzo rara vez se combina con metaheurísticas para abordar problemas de IPDS. En este trabajo, se estudia un problema integrado de programación de flujo de taller distribuido y distribución, y se proporciona un modelo matemático. Debido a la naturaleza NP-hard del problema, se diseña una optimización de tormenta cerebral basada en Q-learning multiobjetivo para minimizar el tiempo de ejecución y el total ponderado de prontitud y tardanza. En el enfoque presentado, se utiliza un método de representación de doble cadena y se desarrolla un método de agrupación dinámica en la fase de agrupación. En la fase de generación, se introducen una estrategia de búsqueda global, una estrategia de búsqueda local y una estrategia de recocido simulado. Se realiza un proceso de Q-learning para elegir dinámicamente la estrategia de generación. Consta de cuatro acciones definidas como las combinaciones de estas estrategias, cuatro estados descritos por métricas de convergencia y uniformidad, una función de recompensa y un método mejorado de -greedy. En la fase de selección, se adopta un método de selección recién definido. Para evaluar la efectividad del enfoque propuesto, se aplica un grupo de comparación que consiste en cuatro metaheurísticas prevalentes y un optimizador CPLEX para realizar experimentos numéricos y pruebas estadísticas. Los resultados sugieren que el enfoque diseñado supera a sus competidores en la obtención de soluciones prometedoras al abordar el problema considerado.