Reduciendo el sesgo de estimación del valor Q a través de la estimación mutua y la operación softmax en MADRL
Autores: Li, Zheng; Chen, Xinkai; Fu, Jiaqing; Xie, Ning; Zhao, Tingting
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Reduciendo el sesgo de estimación del valor Q a través de la estimación mutua y la operación softmax en MADRL
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Desarrollo
Juegos electrónicos
Multi-agente
Aprendizaje por refuerzo
Estimación de valor Q
Estrategias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Con el desarrollo de la tecnología de juegos electrónicos, el contenido de los juegos electrónicos presenta un mayor número de unidades, atributos de unidades más ricos, mecanismos de juego más complejos y estrategias de equipo más diversas. El aprendizaje profundo de refuerzo multiagente brilla intensamente en este tipo de juego electrónico de equipo, logrando resultados que superan a los jugadores humanos profesionales. Los algoritmos de aprendizaje por refuerzo basados en la estimación del valor Q a menudo sufren de sobreestimación del valor Q, lo que puede afectar seriamente el rendimiento de la inteligencia artificial en escenarios multiagente. Proponemos un método de evaluación mutua multiagente y un método softmax multiagente para reducir el sesgo de estimación de los valores Q en escenarios multiagente, y los hemos probado tanto en el entorno multiagente de partículas como en el entorno multiagente de tanques que construimos. El entorno multiagente de tanques que hemos construido ha logrado un buen equilibrio entre la eficiencia de verificación experimental y la simulación de tareas de juego multiagente. Puede ser fácilmente ampliado para diferentes tareas de cooperación o competencia multiagente. Esperamos que pueda ser promovido en la investigación de aprendizaje profundo de refuerzo multiagente.
Descripción
Con el desarrollo de la tecnología de juegos electrónicos, el contenido de los juegos electrónicos presenta un mayor número de unidades, atributos de unidades más ricos, mecanismos de juego más complejos y estrategias de equipo más diversas. El aprendizaje profundo de refuerzo multiagente brilla intensamente en este tipo de juego electrónico de equipo, logrando resultados que superan a los jugadores humanos profesionales. Los algoritmos de aprendizaje por refuerzo basados en la estimación del valor Q a menudo sufren de sobreestimación del valor Q, lo que puede afectar seriamente el rendimiento de la inteligencia artificial en escenarios multiagente. Proponemos un método de evaluación mutua multiagente y un método softmax multiagente para reducir el sesgo de estimación de los valores Q en escenarios multiagente, y los hemos probado tanto en el entorno multiagente de partículas como en el entorno multiagente de tanques que construimos. El entorno multiagente de tanques que hemos construido ha logrado un buen equilibrio entre la eficiencia de verificación experimental y la simulación de tareas de juego multiagente. Puede ser fácilmente ampliado para diferentes tareas de cooperación o competencia multiagente. Esperamos que pueda ser promovido en la investigación de aprendizaje profundo de refuerzo multiagente.