Política sensible al riesgo con aprendizaje por refuerzo distribucional
Autores: Théate, Thibaut; Ernst, Damien
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Política sensible al riesgo con aprendizaje por refuerzo distribucional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje por refuerzo
Políticas de toma de decisiones
Riesgo
RL distribucional
Retorno esperado
Toma de decisiones secuenciales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Las técnicas clásicas de aprendizaje por refuerzo (RL, por sus siglas en inglés) generalmente se preocupan por el diseño de políticas de toma de decisiones impulsadas por la maximización del resultado esperado. Sin embargo, este enfoque no tiene en cuenta el riesgo potencial asociado con las acciones tomadas, lo cual puede ser crítico en ciertas aplicaciones. Para abordar ese problema, el presente trabajo de investigación introduce una metodología novedosa basada en RL distribucional para derivar políticas de toma de decisiones secuenciales que sean sensibles al riesgo, siendo este último modelado por la cola de la distribución de probabilidad de retorno. La idea principal es reemplazar la función que generalmente está en el núcleo de los esquemas de aprendizaje en RL por otra función, que tenga en cuenta tanto el retorno esperado como el riesgo. Llamado el, se puede extraer de la distribución de retorno aleatoria aprendida naturalmente por cualquier algoritmo de RL distribucional. Esto permite abarcar todo el potencial equilibrio entre la minimización del riesgo y la maximización del retorno esperado, en contraste con metodologías totalmente aversas al riesgo. Fundamentalmente, esta investigación produce una solución verdaderamente práctica y accesible para aprender políticas sensibles al riesgo con una modificación mínima al algoritmo de RL distribucional, con énfasis en la interpretabilidad del proceso de toma de decisiones resultante.
Descripción
Las técnicas clásicas de aprendizaje por refuerzo (RL, por sus siglas en inglés) generalmente se preocupan por el diseño de políticas de toma de decisiones impulsadas por la maximización del resultado esperado. Sin embargo, este enfoque no tiene en cuenta el riesgo potencial asociado con las acciones tomadas, lo cual puede ser crítico en ciertas aplicaciones. Para abordar ese problema, el presente trabajo de investigación introduce una metodología novedosa basada en RL distribucional para derivar políticas de toma de decisiones secuenciales que sean sensibles al riesgo, siendo este último modelado por la cola de la distribución de probabilidad de retorno. La idea principal es reemplazar la función que generalmente está en el núcleo de los esquemas de aprendizaje en RL por otra función, que tenga en cuenta tanto el retorno esperado como el riesgo. Llamado el, se puede extraer de la distribución de retorno aleatoria aprendida naturalmente por cualquier algoritmo de RL distribucional. Esto permite abarcar todo el potencial equilibrio entre la minimización del riesgo y la maximización del retorno esperado, en contraste con metodologías totalmente aversas al riesgo. Fundamentalmente, esta investigación produce una solución verdaderamente práctica y accesible para aprender políticas sensibles al riesgo con una modificación mínima al algoritmo de RL distribucional, con énfasis en la interpretabilidad del proceso de toma de decisiones resultante.