Reduciendo el sesgo de estimación del valor Q a través de la estimación mutua y la operación softmax en MADRL

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reduciendo el sesgo de estimación del valor Q a través de la estimación mutua y la operación softmax en MADRL

Autores: Li, Zheng; Chen, Xinkai; Fu, Jiaqing; Xie, Ning; Zhao, Tingting

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Reduciendo el sesgo de estimación del valor Q a través de la estimación mutua y la operación softmax en MADRL

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Desarrollo

Juegos electrónicos

Multi-agente

Aprendizaje por refuerzo

Estimación de valor Q

Estrategias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

Con el desarrollo de la tecnología de juegos electrónicos, el contenido de los juegos electrónicos presenta un mayor número de unidades, atributos de unidades más ricos, mecanismos de juego más complejos y estrategias de equipo más diversas. El aprendizaje profundo de refuerzo multiagente brilla intensamente en este tipo de juego electrónico de equipo, logrando resultados que superan a los jugadores humanos profesionales. Los algoritmos de aprendizaje por refuerzo basados en la estimación del valor Q a menudo sufren de sobreestimación del valor Q, lo que puede afectar seriamente el rendimiento de la inteligencia artificial en escenarios multiagente. Proponemos un método de evaluación mutua multiagente y un método softmax multiagente para reducir el sesgo de estimación de los valores Q en escenarios multiagente, y los hemos probado tanto en el entorno multiagente de partículas como en el entorno multiagente de tanques que construimos. El entorno multiagente de tanques que hemos construido ha logrado un buen equilibrio entre la eficiencia de verificación experimental y la simulación de tareas de juego multiagente. Puede ser fácilmente ampliado para diferentes tareas de cooperación o competencia multiagente. Esperamos que pueda ser promovido en la investigación de aprendizaje profundo de refuerzo multiagente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro