logo móvil
Contáctanos

Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo

Autores: Zeng, Yuhang; Lou, Ping; Hu, Jianmin; Fan, Chuannian; Liu, Quan; Hu, Jiwei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Problema de programación de talleres
Aprendizaje profundo por refuerzo
Diseño de función de recompensa
Representación de características del estado
Retroalimentación humana
Convergencia de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
El problema de programación de talleres (JSSP) es un desafío clásico de optimización combinatoria NP-difícil que juega un papel crucial en los sistemas de fabricación. El aprendizaje profundo por refuerzo ha mostrado un gran potencial para resolver este problema. Sin embargo, todavía enfrenta desafíos en el diseño de funciones de recompensa y en la representación de características del estado, lo que provoca una lenta convergencia de políticas y una baja eficiencia de aprendizaje en entornos de producción complejos. Por lo tanto, se propone un marco de aprendizaje profundo por refuerzo asistido por un modelo de lenguaje grande basado en retroalimentación humana (HFLLMDRL) para resolver este problema, en el que se utiliza la ingeniería de prompts de pocos disparos mediante retroalimentación humana para ayudar en el diseño de funciones de recompensa instructivas y guiar la convergencia de políticas. Además, se integra una red de visualización simbólica de auto-adaptación Kolmogorov-Arnold (KAN) como la red de políticas en DRL para mejorar la representación de características del estado, mejorando así la eficiencia del aprendizaje. Los resultados experimentales demuestran que el marco propuesto aumenta significativamente tanto el rendimiento del aprendizaje como la convergencia de políticas, presentando un enfoque novedoso para el JSSP.

Otros recursos que podrían interesarte

Temas Virtualpro