Nfsp-plt: resolviendo juegos con un método basado en nfsp-per ponderado
Autores: Li, Huale; Qi, Shuhan; Zhang, Jiajia; Zhang, Dandan; Yao, Lin; Wang, Xuan; Li, Qi; Xiao, Jing
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Nfsp-plt: resolviendo juegos con un método basado en nfsp-per ponderado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estrategia de equilibrio
Autojuego ficticio neuronal
Equilibrio de Nash
Datos de muestra
Eficiencia de entrenamiento
Estrategia de respuesta óptima
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La estrategia de equilibrio de Nash es un objetivo típico al resolver juegos de información imperfecta de dos jugadores (IIGs). El autojuego ficticio neuronal (NFSP) es un método popular para encontrar el equilibrio de Nash en IIGs, que es el primer método de extremo a extremo utilizado para calcular la estrategia de equilibrio de Nash. Sin embargo, el entrenamiento de NFSP requiere una gran cantidad de datos de muestra y el costo interactivo de obtener dichos datos suele ser muy alto. Darse cuenta del entrenamiento eficiente de la red bajo muestras limitadas es un problema urgente. En este documento, primero propusimos un nuevo método basado en NFSP, NFSP con repetición de experiencia priorizada (NFSP-PER), para mejorar la eficiencia del entrenamiento de muestras. Luego, se propuso un NFSP-PER ponderado con tiempo de aprendizaje (NFSP-PLT) para controlar el grado de utilización de muestras ponderadas por prioridad. Además, basado en el NFSP-PLT, se utiliza un límite superior de confianza adaptativo aplicado al árbol (UCT) para resolver la estrategia de respuesta óptima, lo que hace que la estrategia de resolución sea más precisa. Los extensos resultados experimentales muestran que el NFSP-PLT propuesto mejora eficazmente la eficiencia de aprendizaje de muestras en comparación con los trabajos existentes.
Descripción
La estrategia de equilibrio de Nash es un objetivo típico al resolver juegos de información imperfecta de dos jugadores (IIGs). El autojuego ficticio neuronal (NFSP) es un método popular para encontrar el equilibrio de Nash en IIGs, que es el primer método de extremo a extremo utilizado para calcular la estrategia de equilibrio de Nash. Sin embargo, el entrenamiento de NFSP requiere una gran cantidad de datos de muestra y el costo interactivo de obtener dichos datos suele ser muy alto. Darse cuenta del entrenamiento eficiente de la red bajo muestras limitadas es un problema urgente. En este documento, primero propusimos un nuevo método basado en NFSP, NFSP con repetición de experiencia priorizada (NFSP-PER), para mejorar la eficiencia del entrenamiento de muestras. Luego, se propuso un NFSP-PER ponderado con tiempo de aprendizaje (NFSP-PLT) para controlar el grado de utilización de muestras ponderadas por prioridad. Además, basado en el NFSP-PLT, se utiliza un límite superior de confianza adaptativo aplicado al árbol (UCT) para resolver la estrategia de respuesta óptima, lo que hace que la estrategia de resolución sea más precisa. Los extensos resultados experimentales muestran que el NFSP-PLT propuesto mejora eficazmente la eficiencia de aprendizaje de muestras en comparación con los trabajos existentes.