Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo
Autores: Zeng, Yuhang; Lou, Ping; Hu, Jianmin; Fan, Chuannian; Liu, Quan; Hu, Jiwei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Problema de programación de talleres
Aprendizaje profundo por refuerzo
Diseño de función de recompensa
Representación de características del estado
Retroalimentación humana
Convergencia de políticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
El problema de programación de talleres (JSSP) es un desafío clásico de optimización combinatoria NP-difícil que juega un papel crucial en los sistemas de fabricación. El aprendizaje profundo por refuerzo ha mostrado un gran potencial para resolver este problema. Sin embargo, todavía enfrenta desafíos en el diseño de funciones de recompensa y en la representación de características del estado, lo que provoca una lenta convergencia de políticas y una baja eficiencia de aprendizaje en entornos de producción complejos. Por lo tanto, se propone un marco de aprendizaje profundo por refuerzo asistido por un modelo de lenguaje grande basado en retroalimentación humana (HFLLMDRL) para resolver este problema, en el que se utiliza la ingeniería de prompts de pocos disparos mediante retroalimentación humana para ayudar en el diseño de funciones de recompensa instructivas y guiar la convergencia de políticas. Además, se integra una red de visualización simbólica de auto-adaptación Kolmogorov-Arnold (KAN) como la red de políticas en DRL para mejorar la representación de características del estado, mejorando así la eficiencia del aprendizaje. Los resultados experimentales demuestran que el marco propuesto aumenta significativamente tanto el rendimiento del aprendizaje como la convergencia de políticas, presentando un enfoque novedoso para el JSSP.
Descripción
El problema de programación de talleres (JSSP) es un desafío clásico de optimización combinatoria NP-difícil que juega un papel crucial en los sistemas de fabricación. El aprendizaje profundo por refuerzo ha mostrado un gran potencial para resolver este problema. Sin embargo, todavía enfrenta desafíos en el diseño de funciones de recompensa y en la representación de características del estado, lo que provoca una lenta convergencia de políticas y una baja eficiencia de aprendizaje en entornos de producción complejos. Por lo tanto, se propone un marco de aprendizaje profundo por refuerzo asistido por un modelo de lenguaje grande basado en retroalimentación humana (HFLLMDRL) para resolver este problema, en el que se utiliza la ingeniería de prompts de pocos disparos mediante retroalimentación humana para ayudar en el diseño de funciones de recompensa instructivas y guiar la convergencia de políticas. Además, se integra una red de visualización simbólica de auto-adaptación Kolmogorov-Arnold (KAN) como la red de políticas en DRL para mejorar la representación de características del estado, mejorando así la eficiencia del aprendizaje. Los resultados experimentales demuestran que el marco propuesto aumenta significativamente tanto el rendimiento del aprendizaje como la convergencia de políticas, presentando un enfoque novedoso para el JSSP.