Factorización de valor asistida con interacción latente en aprendizaje de refuerzo multiagente cooperativo
Autores: Zhao, Zhitong; Zhang, Ya; Wang, Siying; Zhou, Yang; Zhang, Ruoning; Chen, Wenyu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Factorización de valor asistida con interacción latente en aprendizaje de refuerzo multiagente cooperativo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Mecanismos de descomposición del valor
Aprendizaje por refuerzo multiagente
Dinámicas colaborativas
Interacción latente
Mecanismo de enmascaramiento dinámico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Con el desarrollo de los métodos de descomposición de valores, el aprendizaje por refuerzo multiagente (MARL) ha avanzado significativamente en equilibrar la toma de decisiones autónomas con la cooperación colectiva. Sin embargo, las dinámicas colaborativas entre agentes están cambiando continuamente. Los métodos actuales de descomposición de valores luchan por manejar hábilmente estos cambios dinámicos, lo que afecta la efectividad de las políticas cooperativas. En este documento, presentamos el concepto de interacción latente, sobre el cual se desarrolla un método innovador para generar pesos. El método propuesto deriva pesos de la información histórica, mejorando así la precisión de las estimaciones de valor. Sobre esta base, también proponemos un mecanismo de enmascaramiento dinámico que recalibra la información histórica en respuesta al nivel de actividad de los agentes, mejorando la precisión de las evaluaciones de interacción latente. Los resultados experimentales demuestran la velocidad de entrenamiento mejorada y el rendimiento superior del método propuesto tanto en un entorno de partículas multiagente como en el Desafío Multiagente de StarCraft.
Descripción
Con el desarrollo de los métodos de descomposición de valores, el aprendizaje por refuerzo multiagente (MARL) ha avanzado significativamente en equilibrar la toma de decisiones autónomas con la cooperación colectiva. Sin embargo, las dinámicas colaborativas entre agentes están cambiando continuamente. Los métodos actuales de descomposición de valores luchan por manejar hábilmente estos cambios dinámicos, lo que afecta la efectividad de las políticas cooperativas. En este documento, presentamos el concepto de interacción latente, sobre el cual se desarrolla un método innovador para generar pesos. El método propuesto deriva pesos de la información histórica, mejorando así la precisión de las estimaciones de valor. Sobre esta base, también proponemos un mecanismo de enmascaramiento dinámico que recalibra la información histórica en respuesta al nivel de actividad de los agentes, mejorando la precisión de las evaluaciones de interacción latente. Los resultados experimentales demuestran la velocidad de entrenamiento mejorada y el rendimiento superior del método propuesto tanto en un entorno de partículas multiagente como en el Desafío Multiagente de StarCraft.