Eficientemente dominando el juego de NoGo con aprendizaje profundo por refuerzo respaldado por conocimiento de dominio

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Eficientemente dominando el juego de NoGo con aprendizaje profundo por refuerzo respaldado por conocimiento de dominio

Autores: Gao, Yifan; Wu, Lezhou

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Eficientemente dominando el juego de NoGo con aprendizaje profundo por refuerzo respaldado por conocimiento de dominio

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Juegos de computadora

Inteligencia artificial

AlphaZero

NoGoZero+

Velocidad de entrenamiento

Juegos de auto-juego

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones

Los juegos de computadora han sido considerados como un campo importante de la inteligencia artificial (IA) durante mucho tiempo. La estructura AlphaZero ha tenido éxito en el juego de Go, venciendo a los mejores jugadores humanos profesionales y convirtiéndose en el método base en los juegos de computadora. Sin embargo, el proceso de entrenamiento de AlphaZero requiere enormes recursos informáticos, imponiendo dificultades adicionales para la IA basada en AlphaZero. En este documento, proponemos NoGoZero+ para mejorar el proceso de AlphaZero y aplicarlo a un juego similar al Go, NoGo. NoGoZero+ emplea varias características innovadoras para mejorar la velocidad de entrenamiento y el rendimiento, y la mayoría de las estrategias de mejora pueden transferirse a otras áreas no específicas. Este documento lo compara con el proceso original de AlphaZero, y los resultados muestran que NoGoZero+ aumenta la velocidad de entrenamiento a aproximadamente seis veces la del proceso original de AlphaZero. Además, en el experimento, nuestro agente venció al agente original de AlphaZero con una puntuación de 81:19 después de ser entrenado solo con los datos de 20,000 juegos de autojuego (cantidad pequeña en comparación con los 120,000 juegos de autojuego consumidos por el AlphaZero original). El programa de juego NoGo basado en NoGoZero+ fue subcampeón en el Campeonato de Juegos de Computadora de China (CCGC) de 2020 con recursos limitados, derrotando a muchos programas basados en AlphaZero. Nuestro código, modelos preentrenados y conjuntos de datos de autojuego están disponibles públicamente. El objetivo final de este documento es proporcionar ideas exploratorias y herramientas auxiliares maduras para permitir a los investigadores de IA y las comunidades de juegos de computadora estudiar, probar y mejorar estos prometedores métodos de vanguardia a un costo mucho menor de recursos informáticos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro