Un método de aprendizaje profundo por refuerzo basado en un modelo Transformer para el problema de programación flexible de taller de trabajo
Autores: Xu, Shuai; Li, Yanwu; Li, Qiuyang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de aprendizaje profundo por refuerzo basado en un modelo Transformer para el problema de programación flexible de taller de trabajo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Flexible
Problema de programación de taller de trabajo
Aprendizaje profundo por refuerzo
Proceso de Decisión de Markov
Industrias manufactureras
Decisiones de programación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El problema de programación de la tienda de trabajos flexible (FJSSP), que puede mejorar significativamente la eficiencia de producción, es un problema de optimización matemática ampliamente aplicado en las industrias manufactureras modernas. Sin embargo, debido a su naturaleza NP-duro, encontrar una solución óptima para todos los escenarios dentro de un marco de tiempo razonable enfrenta serios desafíos. Este documento propone una solución que transforma el FJSSP en un Proceso de Decisión de Markov (MDP) y emplea técnicas de aprendizaje profundo por refuerzo (DRL) para su resolución. Primero, representamos las características del estado del entorno de programación utilizando siete vectores de características y utilizamos un codificador transformador como un módulo de extracción de características para capturar efectivamente las relaciones entre las características del estado y mejorar la capacidad de representación. En segundo lugar, basándonos en las características de los trabajos y las máquinas, diseñamos 16 reglas de despacho compuestas desde múltiples dimensiones, incluyendo la tasa de finalización del trabajo, el tiempo de procesamiento, el tiempo de espera y la utilización de recursos de fabricación, para lograr decisiones de programación flexibles y eficientes. Además, proyectamos una función de recompensa intuitiva y densa con el objetivo de minimizar el tiempo total de inactividad de las máquinas. Finalmente, para verificar el rendimiento y la viabilidad del algoritmo, evaluamos el modelo de política propuesto en los conjuntos de datos de Brandimarte, Hurink y Dauzere. Nuestros resultados experimentales demuestran que el marco propuesto supera consistentemente a las reglas de despacho tradicionales, supera a los métodos metaheurísticos en instancias a mayor escala y supera el rendimiento de los métodos de programación basados en DRL existentes en la mayoría de los conjuntos de datos.
Descripción
El problema de programación de la tienda de trabajos flexible (FJSSP), que puede mejorar significativamente la eficiencia de producción, es un problema de optimización matemática ampliamente aplicado en las industrias manufactureras modernas. Sin embargo, debido a su naturaleza NP-duro, encontrar una solución óptima para todos los escenarios dentro de un marco de tiempo razonable enfrenta serios desafíos. Este documento propone una solución que transforma el FJSSP en un Proceso de Decisión de Markov (MDP) y emplea técnicas de aprendizaje profundo por refuerzo (DRL) para su resolución. Primero, representamos las características del estado del entorno de programación utilizando siete vectores de características y utilizamos un codificador transformador como un módulo de extracción de características para capturar efectivamente las relaciones entre las características del estado y mejorar la capacidad de representación. En segundo lugar, basándonos en las características de los trabajos y las máquinas, diseñamos 16 reglas de despacho compuestas desde múltiples dimensiones, incluyendo la tasa de finalización del trabajo, el tiempo de procesamiento, el tiempo de espera y la utilización de recursos de fabricación, para lograr decisiones de programación flexibles y eficientes. Además, proyectamos una función de recompensa intuitiva y densa con el objetivo de minimizar el tiempo total de inactividad de las máquinas. Finalmente, para verificar el rendimiento y la viabilidad del algoritmo, evaluamos el modelo de política propuesto en los conjuntos de datos de Brandimarte, Hurink y Dauzere. Nuestros resultados experimentales demuestran que el marco propuesto supera consistentemente a las reglas de despacho tradicionales, supera a los métodos metaheurísticos en instancias a mayor escala y supera el rendimiento de los métodos de programación basados en DRL existentes en la mayoría de los conjuntos de datos.