Aprendizaje por Refuerzo Multi-Agente para la Programación de Talleres de Trabajo Flexible Extendidos
Autores: Peng, Shaoming; Xiong, Gang; Yang, Jing; Shen, Zhen; Tamir, TarikuSinshaw; Tao, Zhikun; Han, Yunjun; Wang, Fei-Yue
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje por Refuerzo Multi-Agente para la Programación de Talleres de Trabajo Flexible Extendidos
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Programación de trabajos flexible
Flexibilidad tecnológica
Flexibilidad de ruta
Tiempo de transporte
Entorno incierto
Aprendizaje por refuerzo multiagente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Se presenta un problema de programación de trabajos flexible extendido con características de flexibilidad tecnológica y de ruta (flexibilidad dual), tiempos de transporte variados y un entorno incierto. La programación puede aumentar significativamente la eficiencia y la seguridad en escenarios complejos, por ejemplo, en la fabricación de vehículos distribuidos y el mantenimiento de múltiples aeronaves. Sin embargo, optimizar la programación plantea mayores requisitos en cuanto a precisión, tiempo real y generalización, mientras se enfrenta a la maldición de la dimensionalidad y a menudo a información incompleta. Las diversas relaciones de acoplamiento entre operaciones, estaciones y recursos agravan el problema. Para abordar los desafíos mencionados, proponemos un algoritmo de aprendizaje por refuerzo multiagente donde el entorno de programación se modela como un proceso de decisión de Markov parcialmente observable descentralizado. Cada trabajo se considera un agente que decide el siguiente triplete, es decir, operación, estación y recurso empleado. Este artículo es novedoso al abordar el problema de programación de trabajos flexibles con flexibilidad dual y tiempos de transporte variados en consideración y al proponer un algoritmo de optimización de mezcla de valores Q doble (DQMIX) bajo un marco de aprendizaje por refuerzo multiagente. Los experimentos de nuestro estudio de caso muestran que el algoritmo DQMIX supera a los algoritmos de aprendizaje por refuerzo multiagente existentes en términos de precisión de solución, estabilidad y generalización. Además, logra una mejor calidad de solución para casos a gran escala que los algoritmos de optimización inteligente tradicionales.
Descripción
Se presenta un problema de programación de trabajos flexible extendido con características de flexibilidad tecnológica y de ruta (flexibilidad dual), tiempos de transporte variados y un entorno incierto. La programación puede aumentar significativamente la eficiencia y la seguridad en escenarios complejos, por ejemplo, en la fabricación de vehículos distribuidos y el mantenimiento de múltiples aeronaves. Sin embargo, optimizar la programación plantea mayores requisitos en cuanto a precisión, tiempo real y generalización, mientras se enfrenta a la maldición de la dimensionalidad y a menudo a información incompleta. Las diversas relaciones de acoplamiento entre operaciones, estaciones y recursos agravan el problema. Para abordar los desafíos mencionados, proponemos un algoritmo de aprendizaje por refuerzo multiagente donde el entorno de programación se modela como un proceso de decisión de Markov parcialmente observable descentralizado. Cada trabajo se considera un agente que decide el siguiente triplete, es decir, operación, estación y recurso empleado. Este artículo es novedoso al abordar el problema de programación de trabajos flexibles con flexibilidad dual y tiempos de transporte variados en consideración y al proponer un algoritmo de optimización de mezcla de valores Q doble (DQMIX) bajo un marco de aprendizaje por refuerzo multiagente. Los experimentos de nuestro estudio de caso muestran que el algoritmo DQMIX supera a los algoritmos de aprendizaje por refuerzo multiagente existentes en términos de precisión de solución, estabilidad y generalización. Además, logra una mejor calidad de solución para casos a gran escala que los algoritmos de optimización inteligente tradicionales.