Aprendizaje por refuerzo guiado por LLM para entornos interactivos
Autores: Yang, Fuxue; Liu, Jiawen; Li, Kan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por refuerzo guiado por LLM para entornos interactivos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Marco
Modelos de lenguaje
Submetas
Aprendizaje por refuerzo
Entrenamiento
Inferencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Proponemos aquí un marco novedoso que aprovecha modelos de lenguaje grandes (LLMs) para descomponer objetivos de alto nivel en una secuencia de subobjetivos manejables en entornos interactivos. Nuestro enfoque desacopla la planificación de alto nivel de la ejecución de acciones de bajo nivel al generar dinámicamente subobjetivos conscientes del contexto que guían al agente de aprendizaje por refuerzo (RL). Durante el entrenamiento, se generan subobjetivos intermedios, cada uno asociado con recompensas parciales, basados en el progreso actual del agente, proporcionando retroalimentación detallada que facilita la exploración estructurada y acelera la convergencia. En la inferencia, se emplea una estrategia de cadena de pensamiento, lo que permite al LLM actualizar adaptativamente los subobjetivos en respuesta a estados ambientales en evolución. Aunque demostrado en un entorno interactivo representativo, nuestro método es generalizable a una amplia gama de tareas complejas orientadas a objetivos. Los resultados experimentales muestran que logra tasas de éxito más altas, mayor eficiencia y convergencia más rápida en comparación con enfoques de referencia.
Descripción
Proponemos aquí un marco novedoso que aprovecha modelos de lenguaje grandes (LLMs) para descomponer objetivos de alto nivel en una secuencia de subobjetivos manejables en entornos interactivos. Nuestro enfoque desacopla la planificación de alto nivel de la ejecución de acciones de bajo nivel al generar dinámicamente subobjetivos conscientes del contexto que guían al agente de aprendizaje por refuerzo (RL). Durante el entrenamiento, se generan subobjetivos intermedios, cada uno asociado con recompensas parciales, basados en el progreso actual del agente, proporcionando retroalimentación detallada que facilita la exploración estructurada y acelera la convergencia. En la inferencia, se emplea una estrategia de cadena de pensamiento, lo que permite al LLM actualizar adaptativamente los subobjetivos en respuesta a estados ambientales en evolución. Aunque demostrado en un entorno interactivo representativo, nuestro método es generalizable a una amplia gama de tareas complejas orientadas a objetivos. Los resultados experimentales muestran que logra tasas de éxito más altas, mayor eficiencia y convergencia más rápida en comparación con enfoques de referencia.