Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución

Autores: Zhang, Shuo; Xu, Jianyou; Qiao, Yingli

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Multi-objetivo q-learning basado en la optimización de tormentas cerebrales para problemas integrados de programación de flujo de taller distribuido y distribución

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Producción integrada

Programación de distribución

Fabricación distribuida

Aprendizaje por refuerzo

Metaheurísticas

Q-learning

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

En los últimos años, la programación y planificación integradas de producción y distribución (IPDS) se ha convertido en un tema importante en la gestión de la cadena de suministro. Sin embargo, la IPDS considerando entornos de fabricación distribuida rara vez se investiga. Además, el aprendizaje por refuerzo rara vez se combina con metaheurísticas para abordar problemas de IPDS. En este trabajo, se estudia un problema integrado de programación de flujo de taller distribuido y distribución, y se proporciona un modelo matemático. Debido a la naturaleza NP-hard del problema, se diseña una optimización de tormenta cerebral basada en Q-learning multiobjetivo para minimizar el tiempo de ejecución y el total ponderado de prontitud y tardanza. En el enfoque presentado, se utiliza un método de representación de doble cadena y se desarrolla un método de agrupación dinámica en la fase de agrupación. En la fase de generación, se introducen una estrategia de búsqueda global, una estrategia de búsqueda local y una estrategia de recocido simulado. Se realiza un proceso de Q-learning para elegir dinámicamente la estrategia de generación. Consta de cuatro acciones definidas como las combinaciones de estas estrategias, cuatro estados descritos por métricas de convergencia y uniformidad, una función de recompensa y un método mejorado de -greedy. En la fase de selección, se adopta un método de selección recién definido. Para evaluar la efectividad del enfoque propuesto, se aplica un grupo de comparación que consiste en cuatro metaheurísticas prevalentes y un optimizador CPLEX para realizar experimentos numéricos y pruebas estadísticas. Los resultados sugieren que el enfoque diseñado supera a sus competidores en la obtención de soluciones prometedoras al abordar el problema considerado.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro