Optimizando el aprendizaje por refuerzo utilizando un transformador generativo de acción-traductor

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Optimizando el aprendizaje por refuerzo utilizando un transformador generativo de acción-traductor

Autores: Li, Jiaming; Xie, Ning; Zhao, Tingting

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Optimizando el aprendizaje por refuerzo utilizando un transformador generativo de acción-traductor

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Avances

Procesamiento de lenguaje natural

Aprendizaje por refuerzo

Transformador de decisiones

Modelos de lenguaje

Aprendizaje por refuerzo fuera de línea

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

En los últimos años, con los avances rápidos en las tecnologías de Procesamiento del Lenguaje Natural (NLP), los modelos grandes se han vuelto generalizados. Los algoritmos tradicionales de aprendizaje por refuerzo también han comenzado a experimentar con modelos de lenguaje para optimizar el entrenamiento. Sin embargo, siguen dependiendo fundamentalmente del Proceso de Decisión de Markov (MDP) para el aprendizaje por refuerzo, y no explotan completamente las ventajas de los modelos de lenguaje para tratar con secuencias largas de problemas. El Decision Transformer (DT) introducido en 2021 es el esfuerzo inicial para transformar completamente el problema de aprendizaje por refuerzo en un desafío dentro del dominio de NLP. Intenta utilizar técnicas de generación de texto para crear trayectorias de aprendizaje por refuerzo, abordando el problema de encontrar trayectorias óptimas. Sin embargo, el artículo coloca los datos de trayectoria de entrenamiento de aprendizaje por refuerzo directamente en un modelo de lenguaje básico para el entrenamiento. Su objetivo es predecir la trayectoria completa, abarcando información de estado y recompensa. Este enfoque se desvía del objetivo de entrenamiento de aprendizaje por refuerzo de encontrar la acción óptima. Además, genera información redundante en la salida, afectando la efectividad final del entrenamiento del agente. Este documento propone una estructura de modelo de red más razonable, el Action-Translator Transformer (ATT), para predecir solo la próxima acción del agente. Esto hace que el modelo de lenguaje sea más interpretable para el problema de aprendizaje por refuerzo. Probamos nuestro modelo en escenarios de juegos simulados y lo comparamos con los métodos principales actuales en el campo del aprendizaje por refuerzo fuera de línea. Según los resultados experimentales presentados, nuestro modelo demuestra un rendimiento superior. Esperamos que la introducción de este modelo inspire nuevas ideas y soluciones para combinar modelos de lenguaje y aprendizaje por refuerzo, proporcionando nuevas perspectivas para la investigación de aprendizaje por refuerzo fuera de línea.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro