Eficientemente dominando el juego de NoGo con aprendizaje profundo por refuerzo respaldado por conocimiento de dominio
Autores: Gao, Yifan; Wu, Lezhou
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Eficientemente dominando el juego de NoGo con aprendizaje profundo por refuerzo respaldado por conocimiento de dominio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Juegos de computadora
Inteligencia artificial
AlphaZero
NoGoZero+
Velocidad de entrenamiento
Juegos de auto-juego
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Los juegos de computadora han sido considerados como un campo importante de la inteligencia artificial (IA) durante mucho tiempo. La estructura AlphaZero ha tenido éxito en el juego de Go, venciendo a los mejores jugadores humanos profesionales y convirtiéndose en el método base en los juegos de computadora. Sin embargo, el proceso de entrenamiento de AlphaZero requiere enormes recursos informáticos, imponiendo dificultades adicionales para la IA basada en AlphaZero. En este documento, proponemos NoGoZero+ para mejorar el proceso de AlphaZero y aplicarlo a un juego similar al Go, NoGo. NoGoZero+ emplea varias características innovadoras para mejorar la velocidad de entrenamiento y el rendimiento, y la mayoría de las estrategias de mejora pueden transferirse a otras áreas no específicas. Este documento lo compara con el proceso original de AlphaZero, y los resultados muestran que NoGoZero+ aumenta la velocidad de entrenamiento a aproximadamente seis veces la del proceso original de AlphaZero. Además, en el experimento, nuestro agente venció al agente original de AlphaZero con una puntuación de 81:19 después de ser entrenado solo con los datos de 20,000 juegos de autojuego (cantidad pequeña en comparación con los 120,000 juegos de autojuego consumidos por el AlphaZero original). El programa de juego NoGo basado en NoGoZero+ fue subcampeón en el Campeonato de Juegos de Computadora de China (CCGC) de 2020 con recursos limitados, derrotando a muchos programas basados en AlphaZero. Nuestro código, modelos preentrenados y conjuntos de datos de autojuego están disponibles públicamente. El objetivo final de este documento es proporcionar ideas exploratorias y herramientas auxiliares maduras para permitir a los investigadores de IA y las comunidades de juegos de computadora estudiar, probar y mejorar estos prometedores métodos de vanguardia a un costo mucho menor de recursos informáticos.
Descripción
Los juegos de computadora han sido considerados como un campo importante de la inteligencia artificial (IA) durante mucho tiempo. La estructura AlphaZero ha tenido éxito en el juego de Go, venciendo a los mejores jugadores humanos profesionales y convirtiéndose en el método base en los juegos de computadora. Sin embargo, el proceso de entrenamiento de AlphaZero requiere enormes recursos informáticos, imponiendo dificultades adicionales para la IA basada en AlphaZero. En este documento, proponemos NoGoZero+ para mejorar el proceso de AlphaZero y aplicarlo a un juego similar al Go, NoGo. NoGoZero+ emplea varias características innovadoras para mejorar la velocidad de entrenamiento y el rendimiento, y la mayoría de las estrategias de mejora pueden transferirse a otras áreas no específicas. Este documento lo compara con el proceso original de AlphaZero, y los resultados muestran que NoGoZero+ aumenta la velocidad de entrenamiento a aproximadamente seis veces la del proceso original de AlphaZero. Además, en el experimento, nuestro agente venció al agente original de AlphaZero con una puntuación de 81:19 después de ser entrenado solo con los datos de 20,000 juegos de autojuego (cantidad pequeña en comparación con los 120,000 juegos de autojuego consumidos por el AlphaZero original). El programa de juego NoGo basado en NoGoZero+ fue subcampeón en el Campeonato de Juegos de Computadora de China (CCGC) de 2020 con recursos limitados, derrotando a muchos programas basados en AlphaZero. Nuestro código, modelos preentrenados y conjuntos de datos de autojuego están disponibles públicamente. El objetivo final de este documento es proporcionar ideas exploratorias y herramientas auxiliares maduras para permitir a los investigadores de IA y las comunidades de juegos de computadora estudiar, probar y mejorar estos prometedores métodos de vanguardia a un costo mucho menor de recursos informáticos.