logo móvil
Contáctanos

Política sensible al riesgo con aprendizaje por refuerzo distribucional

Autores: Théate, Thibaut; Ernst, Damien

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Política sensible al riesgo con aprendizaje por refuerzo distribucional


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aprendizaje por refuerzo
Políticas de toma de decisiones
Riesgo
RL distribucional
Retorno esperado
Toma de decisiones secuenciales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Las técnicas clásicas de aprendizaje por refuerzo (RL, por sus siglas en inglés) generalmente se preocupan por el diseño de políticas de toma de decisiones impulsadas por la maximización del resultado esperado. Sin embargo, este enfoque no tiene en cuenta el riesgo potencial asociado con las acciones tomadas, lo cual puede ser crítico en ciertas aplicaciones. Para abordar ese problema, el presente trabajo de investigación introduce una metodología novedosa basada en RL distribucional para derivar políticas de toma de decisiones secuenciales que sean sensibles al riesgo, siendo este último modelado por la cola de la distribución de probabilidad de retorno. La idea principal es reemplazar la función que generalmente está en el núcleo de los esquemas de aprendizaje en RL por otra función, que tenga en cuenta tanto el retorno esperado como el riesgo. Llamado el, se puede extraer de la distribución de retorno aleatoria aprendida naturalmente por cualquier algoritmo de RL distribucional. Esto permite abarcar todo el potencial equilibrio entre la minimización del riesgo y la maximización del retorno esperado, en contraste con metodologías totalmente aversas al riesgo. Fundamentalmente, esta investigación produce una solución verdaderamente práctica y accesible para aprender políticas sensibles al riesgo con una modificación mínima al algoritmo de RL distribucional, con énfasis en la interpretabilidad del proceso de toma de decisiones resultante.

Otros recursos que podrían interesarte

Temas Virtualpro