Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo

Autores: Zeng, Yuhang; Lou, Ping; Hu, Jianmin; Fan, Chuannian; Liu, Quan; Hu, Jiwei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por Refuerzo Profundo Asistido por Modelos de Lenguaje Grande a Partir de Retroalimentación Humana para la Programación de Talleres de Trabajo

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Problema de programación de talleres

Aprendizaje profundo por refuerzo

Diseño de función de recompensa

Representación de características del estado

Retroalimentación humana

Convergencia de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

El problema de programación de talleres (JSSP) es un desafío clásico de optimización combinatoria NP-difícil que juega un papel crucial en los sistemas de fabricación. El aprendizaje profundo por refuerzo ha mostrado un gran potencial para resolver este problema. Sin embargo, todavía enfrenta desafíos en el diseño de funciones de recompensa y en la representación de características del estado, lo que provoca una lenta convergencia de políticas y una baja eficiencia de aprendizaje en entornos de producción complejos. Por lo tanto, se propone un marco de aprendizaje profundo por refuerzo asistido por un modelo de lenguaje grande basado en retroalimentación humana (HFLLMDRL) para resolver este problema, en el que se utiliza la ingeniería de prompts de pocos disparos mediante retroalimentación humana para ayudar en el diseño de funciones de recompensa instructivas y guiar la convergencia de políticas. Además, se integra una red de visualización simbólica de auto-adaptación Kolmogorov-Arnold (KAN) como la red de políticas en DRL para mejorar la representación de características del estado, mejorando así la eficiencia del aprendizaje. Los resultados experimentales demuestran que el marco propuesto aumenta significativamente tanto el rendimiento del aprendizaje como la convergencia de políticas, presentando un enfoque novedoso para el JSSP.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro