logo móvil
Contáctanos

Aprendizaje por Refuerzo Multi-Agente para la Programación de Talleres de Trabajo Flexible Extendidos

Autores: Peng, Shaoming; Xiong, Gang; Yang, Jing; Shen, Zhen; Tamir, TarikuSinshaw; Tao, Zhikun; Han, Yunjun; Wang, Fei-Yue

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Aprendizaje por Refuerzo Multi-Agente para la Programación de Talleres de Trabajo Flexible Extendidos


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Programación de trabajos flexible
Flexibilidad tecnológica
Flexibilidad de ruta
Tiempo de transporte
Entorno incierto
Aprendizaje por refuerzo multiagente

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
Se presenta un problema de programación de trabajos flexible extendido con características de flexibilidad tecnológica y de ruta (flexibilidad dual), tiempos de transporte variados y un entorno incierto. La programación puede aumentar significativamente la eficiencia y la seguridad en escenarios complejos, por ejemplo, en la fabricación de vehículos distribuidos y el mantenimiento de múltiples aeronaves. Sin embargo, optimizar la programación plantea mayores requisitos en cuanto a precisión, tiempo real y generalización, mientras se enfrenta a la maldición de la dimensionalidad y a menudo a información incompleta. Las diversas relaciones de acoplamiento entre operaciones, estaciones y recursos agravan el problema. Para abordar los desafíos mencionados, proponemos un algoritmo de aprendizaje por refuerzo multiagente donde el entorno de programación se modela como un proceso de decisión de Markov parcialmente observable descentralizado. Cada trabajo se considera un agente que decide el siguiente triplete, es decir, operación, estación y recurso empleado. Este artículo es novedoso al abordar el problema de programación de trabajos flexibles con flexibilidad dual y tiempos de transporte variados en consideración y al proponer un algoritmo de optimización de mezcla de valores Q doble (DQMIX) bajo un marco de aprendizaje por refuerzo multiagente. Los experimentos de nuestro estudio de caso muestran que el algoritmo DQMIX supera a los algoritmos de aprendizaje por refuerzo multiagente existentes en términos de precisión de solución, estabilidad y generalización. Además, logra una mejor calidad de solución para casos a gran escala que los algoritmos de optimización inteligente tradicionales.

Otros recursos que podrían interesarte

Temas Virtualpro