logo móvil
Contáctanos

Optimizando el aprendizaje por refuerzo utilizando un transformador generativo de acción-traductor

Autores: Li, Jiaming; Xie, Ning; Zhao, Tingting

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Optimizando el aprendizaje por refuerzo utilizando un transformador generativo de acción-traductor


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Avances
Procesamiento de lenguaje natural
Aprendizaje por refuerzo
Transformador de decisiones
Modelos de lenguaje
Aprendizaje por refuerzo fuera de línea

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
En los últimos años, con los avances rápidos en las tecnologías de Procesamiento del Lenguaje Natural (NLP), los modelos grandes se han vuelto generalizados. Los algoritmos tradicionales de aprendizaje por refuerzo también han comenzado a experimentar con modelos de lenguaje para optimizar el entrenamiento. Sin embargo, siguen dependiendo fundamentalmente del Proceso de Decisión de Markov (MDP) para el aprendizaje por refuerzo, y no explotan completamente las ventajas de los modelos de lenguaje para tratar con secuencias largas de problemas. El Decision Transformer (DT) introducido en 2021 es el esfuerzo inicial para transformar completamente el problema de aprendizaje por refuerzo en un desafío dentro del dominio de NLP. Intenta utilizar técnicas de generación de texto para crear trayectorias de aprendizaje por refuerzo, abordando el problema de encontrar trayectorias óptimas. Sin embargo, el artículo coloca los datos de trayectoria de entrenamiento de aprendizaje por refuerzo directamente en un modelo de lenguaje básico para el entrenamiento. Su objetivo es predecir la trayectoria completa, abarcando información de estado y recompensa. Este enfoque se desvía del objetivo de entrenamiento de aprendizaje por refuerzo de encontrar la acción óptima. Además, genera información redundante en la salida, afectando la efectividad final del entrenamiento del agente. Este documento propone una estructura de modelo de red más razonable, el Action-Translator Transformer (ATT), para predecir solo la próxima acción del agente. Esto hace que el modelo de lenguaje sea más interpretable para el problema de aprendizaje por refuerzo. Probamos nuestro modelo en escenarios de juegos simulados y lo comparamos con los métodos principales actuales en el campo del aprendizaje por refuerzo fuera de línea. Según los resultados experimentales presentados, nuestro modelo demuestra un rendimiento superior. Esperamos que la introducción de este modelo inspire nuevas ideas y soluciones para combinar modelos de lenguaje y aprendizaje por refuerzo, proporcionando nuevas perspectivas para la investigación de aprendizaje por refuerzo fuera de línea.

Otros recursos que podrían interesarte

Temas Virtualpro