Aprendizaje profundo por refuerzo: un panorama cronológico y métodos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje profundo por refuerzo: un panorama cronológico y métodos

Autores: Terven, Juan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje profundo por refuerzo: un panorama cronológico y métodos

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Aprendizaje profundo por refuerzo

Redes neuronales

Funciones de valor

Optimización de políticas

Métodos de diferencia temporal

Redes neuronales Q profundas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones

Introducción: El aprendizaje profundo por refuerzo (deep RL) integra los principios del aprendizaje por refuerzo con redes neuronales profundas, permitiendo que los agentes sobresalgan en diversas tareas que van desde jugar juegos de mesa como Go y Ajedrez hasta controlar sistemas robóticos y vehículos autónomos. Al aprovechar conceptos fundamentales de funciones de valor, optimización de políticas y métodos de diferencia temporal, el deep RL ha evolucionado rápidamente y encontrado aplicaciones en áreas como juegos, robótica, finanzas y salud. Objetivo: Este documento busca proporcionar una visión general completa pero accesible de la evolución del deep RL y sus principales algoritmos. Su objetivo es servir tanto como una introducción para los recién llegados al campo como una guía práctica para aquellos que buscan seleccionar los métodos más apropiados para dominios de problemas específicos. Métodos: Comenzamos delineando los principios fundamentales del aprendizaje por refuerzo, seguidos por una exploración de los primeros métodos de aprendizaje Q tabular. Luego trazamos el desarrollo histórico del deep RL, destacando hitos clave como la llegada de las redes Q profundas (DQN). La encuesta se extiende a métodos de gradiente de política, arquitecturas actor-critic y algoritmos de vanguardia como la optimización de políticas proximales, el actor-critic suave y enfoques model-based emergentes. A lo largo, discutimos los desafíos actuales que enfrenta el deep RL, incluidos problemas de eficiencia de muestra, interpretabilidad y seguridad, así como preguntas de investigación abiertas que involucran entrenamiento a gran escala, arquitecturas jerárquicas y aprendizaje multi-tarea. Resultados: Nuestro análisis demuestra cómo los avances críticos han llevado al deep RL a dominios de aplicación cada vez más complejos. Destacamos las limitaciones existentes y los cuellos de botella en curso, como los altos requisitos de datos y la necesidad de sistemas más transparentes y éticamente alineados. Finalmente, encuestamos posibles direcciones futuras, destacando la importancia de la confiabilidad y consideraciones éticas para implementaciones en el mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro