logo móvil
Contáctanos

Un método de aprendizaje profundo por refuerzo basado en un modelo Transformer para el problema de programación flexible de taller de trabajo

Autores: Xu, Shuai; Li, Yanwu; Li, Qiuyang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un método de aprendizaje profundo por refuerzo basado en un modelo Transformer para el problema de programación flexible de taller de trabajo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Flexible
Problema de programación de taller de trabajo
Aprendizaje profundo por refuerzo
Proceso de Decisión de Markov
Industrias manufactureras
Decisiones de programación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
El problema de programación de la tienda de trabajos flexible (FJSSP), que puede mejorar significativamente la eficiencia de producción, es un problema de optimización matemática ampliamente aplicado en las industrias manufactureras modernas. Sin embargo, debido a su naturaleza NP-duro, encontrar una solución óptima para todos los escenarios dentro de un marco de tiempo razonable enfrenta serios desafíos. Este documento propone una solución que transforma el FJSSP en un Proceso de Decisión de Markov (MDP) y emplea técnicas de aprendizaje profundo por refuerzo (DRL) para su resolución. Primero, representamos las características del estado del entorno de programación utilizando siete vectores de características y utilizamos un codificador transformador como un módulo de extracción de características para capturar efectivamente las relaciones entre las características del estado y mejorar la capacidad de representación. En segundo lugar, basándonos en las características de los trabajos y las máquinas, diseñamos 16 reglas de despacho compuestas desde múltiples dimensiones, incluyendo la tasa de finalización del trabajo, el tiempo de procesamiento, el tiempo de espera y la utilización de recursos de fabricación, para lograr decisiones de programación flexibles y eficientes. Además, proyectamos una función de recompensa intuitiva y densa con el objetivo de minimizar el tiempo total de inactividad de las máquinas. Finalmente, para verificar el rendimiento y la viabilidad del algoritmo, evaluamos el modelo de política propuesto en los conjuntos de datos de Brandimarte, Hurink y Dauzere. Nuestros resultados experimentales demuestran que el marco propuesto supera consistentemente a las reglas de despacho tradicionales, supera a los métodos metaheurísticos en instancias a mayor escala y supera el rendimiento de los métodos de programación basados en DRL existentes en la mayoría de los conjuntos de datos.

Otros recursos que podrían interesarte

Temas Virtualpro