Poda de árboles de juegos estocásticos utilizando redes neuronales para aproximación del espacio de acciones reducido
Autores: Papagiannis, Tasos; Alexandridis, Georgios; Stafylopatis, Andreas
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Poda de árboles de juegos estocásticos utilizando redes neuronales para aproximación del espacio de acciones reducido
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Búsqueda de árbol Monte Carlo
Inteligencia artificial de juegos
Técnicas de poda
Redes neuronales
Simulaciones de bandas de bandidos multi-armados
Aprendizaje supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
El Monte Carlo Tree Search ha demostrado ser muy eficiente en el amplio campo de la Inteligencia Artificial en juegos, aunque sufre de alta dimensionalidad en casos de grandes factores de ramificación. Se han propuesto varias técnicas de poda para abordar este problema, la mayoría de las cuales requieren conocimiento explícito del dominio. En este estudio, se propone un enfoque que utiliza redes neuronales para determinar el número de acciones a podar, dependiendo de las iteraciones realizadas y el número total de acciones posibles. Se emplean simulaciones de bandas de brazos múltiples con la fórmula UCB1 para generar conjuntos de datos adecuados para el entrenamiento de las redes y se sigue un proceso específicamente diseñado para seleccionar la mejor combinación del número de iteraciones y acciones para la poda. Se investigan dos variantes de Monte Carlo Tree Search con poda, basadas en las distribuciones de recompensas esperadas de diferentes acciones, y se evalúan en el juego de cartas coleccionable Hearthstone. La técnica propuesta mejora el rendimiento del algoritmo de Monte Carlo Tree Search en diferentes configuraciones de limitaciones computacionales con respecto al número disponible de iteraciones de búsqueda en el árbol y se ve significativamente potenciada cuando se combina con modelos de predicción de valor de estado entrenados mediante aprendizaje supervisado.
Descripción
El Monte Carlo Tree Search ha demostrado ser muy eficiente en el amplio campo de la Inteligencia Artificial en juegos, aunque sufre de alta dimensionalidad en casos de grandes factores de ramificación. Se han propuesto varias técnicas de poda para abordar este problema, la mayoría de las cuales requieren conocimiento explícito del dominio. En este estudio, se propone un enfoque que utiliza redes neuronales para determinar el número de acciones a podar, dependiendo de las iteraciones realizadas y el número total de acciones posibles. Se emplean simulaciones de bandas de brazos múltiples con la fórmula UCB1 para generar conjuntos de datos adecuados para el entrenamiento de las redes y se sigue un proceso específicamente diseñado para seleccionar la mejor combinación del número de iteraciones y acciones para la poda. Se investigan dos variantes de Monte Carlo Tree Search con poda, basadas en las distribuciones de recompensas esperadas de diferentes acciones, y se evalúan en el juego de cartas coleccionable Hearthstone. La técnica propuesta mejora el rendimiento del algoritmo de Monte Carlo Tree Search en diferentes configuraciones de limitaciones computacionales con respecto al número disponible de iteraciones de búsqueda en el árbol y se ve significativamente potenciada cuando se combina con modelos de predicción de valor de estado entrenados mediante aprendizaje supervisado.