logo móvil
Contáctanos

Poda de árboles de juegos estocásticos utilizando redes neuronales para aproximación del espacio de acciones reducido

Autores: Papagiannis, Tasos; Alexandridis, Georgios; Stafylopatis, Andreas

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Poda de árboles de juegos estocásticos utilizando redes neuronales para aproximación del espacio de acciones reducido


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Búsqueda de árbol Monte Carlo
Inteligencia artificial de juegos
Técnicas de poda
Redes neuronales
Simulaciones de bandas de bandidos multi-armados
Aprendizaje supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
El Monte Carlo Tree Search ha demostrado ser muy eficiente en el amplio campo de la Inteligencia Artificial en juegos, aunque sufre de alta dimensionalidad en casos de grandes factores de ramificación. Se han propuesto varias técnicas de poda para abordar este problema, la mayoría de las cuales requieren conocimiento explícito del dominio. En este estudio, se propone un enfoque que utiliza redes neuronales para determinar el número de acciones a podar, dependiendo de las iteraciones realizadas y el número total de acciones posibles. Se emplean simulaciones de bandas de brazos múltiples con la fórmula UCB1 para generar conjuntos de datos adecuados para el entrenamiento de las redes y se sigue un proceso específicamente diseñado para seleccionar la mejor combinación del número de iteraciones y acciones para la poda. Se investigan dos variantes de Monte Carlo Tree Search con poda, basadas en las distribuciones de recompensas esperadas de diferentes acciones, y se evalúan en el juego de cartas coleccionable Hearthstone. La técnica propuesta mejora el rendimiento del algoritmo de Monte Carlo Tree Search en diferentes configuraciones de limitaciones computacionales con respecto al número disponible de iteraciones de búsqueda en el árbol y se ve significativamente potenciada cuando se combina con modelos de predicción de valor de estado entrenados mediante aprendizaje supervisado.

Otros recursos que podrían interesarte

Temas Virtualpro