Política sensible al riesgo con aprendizaje por refuerzo distribucional

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Política sensible al riesgo con aprendizaje por refuerzo distribucional

Autores: Théate, Thibaut; Ernst, Damien

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Política sensible al riesgo con aprendizaje por refuerzo distribucional

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aprendizaje por refuerzo

Políticas de toma de decisiones

Riesgo

RL distribucional

Retorno esperado

Toma de decisiones secuenciales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Las técnicas clásicas de aprendizaje por refuerzo (RL, por sus siglas en inglés) generalmente se preocupan por el diseño de políticas de toma de decisiones impulsadas por la maximización del resultado esperado. Sin embargo, este enfoque no tiene en cuenta el riesgo potencial asociado con las acciones tomadas, lo cual puede ser crítico en ciertas aplicaciones. Para abordar ese problema, el presente trabajo de investigación introduce una metodología novedosa basada en RL distribucional para derivar políticas de toma de decisiones secuenciales que sean sensibles al riesgo, siendo este último modelado por la cola de la distribución de probabilidad de retorno. La idea principal es reemplazar la función que generalmente está en el núcleo de los esquemas de aprendizaje en RL por otra función, que tenga en cuenta tanto el retorno esperado como el riesgo. Llamado el, se puede extraer de la distribución de retorno aleatoria aprendida naturalmente por cualquier algoritmo de RL distribucional. Esto permite abarcar todo el potencial equilibrio entre la minimización del riesgo y la maximización del retorno esperado, en contraste con metodologías totalmente aversas al riesgo. Fundamentalmente, esta investigación produce una solución verdaderamente práctica y accesible para aprender políticas sensibles al riesgo con una modificación mínima al algoritmo de RL distribucional, con énfasis en la interpretabilidad del proceso de toma de decisiones resultante.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro