logo móvil
Contáctanos

Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución

Autores: Zhang, Shuo; Xu, Jianyou; Qiao, Yingli

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Producción integrada
Programación de distribución
Fabricación distribuida
Aprendizaje por refuerzo
Metaheurísticas
Q-learning

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
En los últimos años, la programación y planificación integradas de producción y distribución (IPDS) se ha convertido en un tema importante en la gestión de la cadena de suministro. Sin embargo, la IPDS considerando entornos de fabricación distribuida rara vez se investiga. Además, el aprendizaje por refuerzo rara vez se combina con metaheurísticas para abordar problemas de IPDS. En este trabajo, se estudia un problema integrado de programación de flujo de taller distribuido y distribución, y se proporciona un modelo matemático. Debido a la naturaleza NP-hard del problema, se diseña una optimización de tormenta cerebral basada en Q-learning multiobjetivo para minimizar el tiempo de ejecución y el total ponderado de prontitud y tardanza. En el enfoque presentado, se utiliza un método de representación de doble cadena y se desarrolla un método de agrupación dinámica en la fase de agrupación. En la fase de generación, se introducen una estrategia de búsqueda global, una estrategia de búsqueda local y una estrategia de recocido simulado. Se realiza un proceso de Q-learning para elegir dinámicamente la estrategia de generación. Consta de cuatro acciones definidas como las combinaciones de estas estrategias, cuatro estados descritos por métricas de convergencia y uniformidad, una función de recompensa y un método mejorado de -greedy. En la fase de selección, se adopta un método de selección recién definido. Para evaluar la efectividad del enfoque propuesto, se aplica un grupo de comparación que consiste en cuatro metaheurísticas prevalentes y un optimizador CPLEX para realizar experimentos numéricos y pruebas estadísticas. Los resultados sugieren que el enfoque diseñado supera a sus competidores en la obtención de soluciones prometedoras al abordar el problema considerado.

Otros recursos que podrían interesarte

Temas Virtualpro