Un estudio sobre el aprendizaje profundo de refuerzo basado en la población
Autores: Long, Weifan; Hou, Taixian; Wei, Xiaoyi; Yan, Shichao; Zhai, Peng; Zhang, Lihua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un estudio sobre el aprendizaje profundo de refuerzo basado en la población
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aplicaciones del mundo real
Juegos a gran escala
Información imperfecta
Métodos de entrenamiento basados en la población
Aprendizaje profundo por refuerzo
Problemas multiagente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Muchas aplicaciones del mundo real pueden describirse como juegos a gran escala de información imperfecta, que requieren un extenso conocimiento previo del dominio, especialmente en entornos competitivos o de cooperación humano-AI. Los métodos de entrenamiento basados en poblaciones se han convertido en una solución popular para aprender políticas robustas sin ningún conocimiento previo, que pueden generalizar a políticas de otros jugadores o humanos. En esta encuesta, arrojamos luz sobre los algoritmos de aprendizaje profundo basados en poblaciones (PB-DRL), sus aplicaciones y marcos generales. Introducimos varias áreas temáticas independientes, incluyendo auto-juego ingenuo, auto-juego ficticio, juego de población, métodos de entrenamiento basados en evolución y la familia de oráculos de respuesta en el espacio de políticas. Estos métodos proporcionan una variedad de enfoques para resolver problemas de múltiples agentes y son útiles en el diseño de algoritmos robustos de aprendizaje por refuerzo de múltiples agentes que pueden manejar situaciones complejas de la vida real. Finalmente, discutimos los desafíos y temas candentes en los algoritmos de PB-DRL. Esperamos que esta breve encuesta pueda proporcionar orientación e ideas para los investigadores interesados en los algoritmos de PB-DRL.
Descripción
Muchas aplicaciones del mundo real pueden describirse como juegos a gran escala de información imperfecta, que requieren un extenso conocimiento previo del dominio, especialmente en entornos competitivos o de cooperación humano-AI. Los métodos de entrenamiento basados en poblaciones se han convertido en una solución popular para aprender políticas robustas sin ningún conocimiento previo, que pueden generalizar a políticas de otros jugadores o humanos. En esta encuesta, arrojamos luz sobre los algoritmos de aprendizaje profundo basados en poblaciones (PB-DRL), sus aplicaciones y marcos generales. Introducimos varias áreas temáticas independientes, incluyendo auto-juego ingenuo, auto-juego ficticio, juego de población, métodos de entrenamiento basados en evolución y la familia de oráculos de respuesta en el espacio de políticas. Estos métodos proporcionan una variedad de enfoques para resolver problemas de múltiples agentes y son útiles en el diseño de algoritmos robustos de aprendizaje por refuerzo de múltiples agentes que pueden manejar situaciones complejas de la vida real. Finalmente, discutimos los desafíos y temas candentes en los algoritmos de PB-DRL. Esperamos que esta breve encuesta pueda proporcionar orientación e ideas para los investigadores interesados en los algoritmos de PB-DRL.