Todo se trata de la recompensa: Contraste entre recompensas conjuntas y recompensas individuales en algoritmos de aprendizaje centralizado y ejecución descentralizada
Autores: Atrazhev, Peter; Musilek, Petr
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Todo se trata de la recompensa: Contraste entre recompensas conjuntas y recompensas individuales en algoritmos de aprendizaje centralizado y ejecución descentralizada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Función de recompensa
Aprendizaje por refuerzo multiagente
Recompensas conjuntas
Recompensas individuales
Algoritmos de ejecución centralizados y descentralizados
Varianza
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Este artículo aborda el problema de elegir una función de recompensa adecuada en el aprendizaje por refuerzo multiagente. Se cuestiona el enfoque tradicional de utilizar recompensas conjuntas para el rendimiento del equipo debido a la falta de respaldo teórico. Los autores exploran el impacto de cambiar la función de recompensa de conjunta a individual en el aprendizaje de algoritmos de ejecución descentralizada centralizada en un entorno de forrajeo basado en niveles. Los resultados empíricos revelan que las recompensas individuales contienen más varianza, pero pueden tener menos sesgo en comparación con las recompensas conjuntas. Los hallazgos muestran que diferentes algoritmos se ven afectados de manera diferente, siendo los métodos de factorización de valor y los métodos basados en PPO los que aprovechan la mayor varianza para lograr un mejor rendimiento. Este estudio destaca la importancia de considerar la elección de una función de recompensa y su impacto en los sistemas de aprendizaje por refuerzo multiagente.
Descripción
Este artículo aborda el problema de elegir una función de recompensa adecuada en el aprendizaje por refuerzo multiagente. Se cuestiona el enfoque tradicional de utilizar recompensas conjuntas para el rendimiento del equipo debido a la falta de respaldo teórico. Los autores exploran el impacto de cambiar la función de recompensa de conjunta a individual en el aprendizaje de algoritmos de ejecución descentralizada centralizada en un entorno de forrajeo basado en niveles. Los resultados empíricos revelan que las recompensas individuales contienen más varianza, pero pueden tener menos sesgo en comparación con las recompensas conjuntas. Los hallazgos muestran que diferentes algoritmos se ven afectados de manera diferente, siendo los métodos de factorización de valor y los métodos basados en PPO los que aprovechan la mayor varianza para lograr un mejor rendimiento. Este estudio destaca la importancia de considerar la elección de una función de recompensa y su impacto en los sistemas de aprendizaje por refuerzo multiagente.