logo móvil
Contáctanos

Aprendizaje por refuerzo guiado por LLM para entornos interactivos

Autores: Yang, Fuxue; Liu, Jiawen; Li, Kan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje por refuerzo guiado por LLM para entornos interactivos


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Marco
Modelos de lenguaje
Submetas
Aprendizaje por refuerzo
Entrenamiento
Inferencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Proponemos aquí un marco novedoso que aprovecha modelos de lenguaje grandes (LLMs) para descomponer objetivos de alto nivel en una secuencia de subobjetivos manejables en entornos interactivos. Nuestro enfoque desacopla la planificación de alto nivel de la ejecución de acciones de bajo nivel al generar dinámicamente subobjetivos conscientes del contexto que guían al agente de aprendizaje por refuerzo (RL). Durante el entrenamiento, se generan subobjetivos intermedios, cada uno asociado con recompensas parciales, basados en el progreso actual del agente, proporcionando retroalimentación detallada que facilita la exploración estructurada y acelera la convergencia. En la inferencia, se emplea una estrategia de cadena de pensamiento, lo que permite al LLM actualizar adaptativamente los subobjetivos en respuesta a estados ambientales en evolución. Aunque demostrado en un entorno interactivo representativo, nuestro método es generalizable a una amplia gama de tareas complejas orientadas a objetivos. Los resultados experimentales muestran que logra tasas de éxito más altas, mayor eficiencia y convergencia más rápida en comparación con enfoques de referencia.

Otros recursos que podrían interesarte

Temas Virtualpro