Explicando el comportamiento de agentes de aprendizaje por refuerzo en un entorno cooperativo de múltiples agentes utilizando gráficos de políticas
Autores: Domenech i Vila, Marc; Gnatyshak, Dmitry; Tormos, Adrian; Gimenez-Abalos, Victor; Alvarez-Napagao, Sergio
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Explicando el comportamiento de agentes de aprendizaje por refuerzo en un entorno cooperativo de múltiples agentes utilizando gráficos de políticas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmos
Inteligencia artificial
Explicabilidad
Gráficos de política
Comportamiento cooperativo
Agentes sustitutos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La adopción de algoritmos basados en Inteligencia Artificial (IA) ha aumentado rápidamente en los últimos años. Sin embargo, algunos aspectos de las técnicas de IA están siendo sometidos a un escrutinio riguroso. Por ejemplo, en muchos casos de uso, no está claro si las decisiones de un algoritmo están bien informadas y se ajustan a la comprensión humana. Tener formas de abordar estas preocupaciones es crucial en muchos ámbitos, especialmente cuando los seres humanos y los agentes inteligentes (físicos o virtuales) deben cooperar en un entorno compartido. En este documento, aplicamos un método de explicabilidad basado en la creación de un Grafo de Políticas (PG) basado en predicados discretos que representan y explican el comportamiento de un agente entrenado en un entorno cooperativo multiagente. Mostramos que a partir de estos grafos de políticas, se pueden generar automáticamente políticas para agentes interpretables sustitutos. Estas políticas pueden utilizarse para medir la fiabilidad de las explicaciones habilitadas por los PG mediante una comparación de comportamiento justa entre el agente opaco original y el sustituto. Las contribuciones de este documento representan el primer caso de uso de grafos de políticas en el contexto de explicar el comportamiento de agentes en escenarios cooperativos multiagente y presentan resultados experimentales que distinguen este tipo de escenario de implementaciones anteriores en escenarios de un solo agente: al requerir comportamiento cooperativo, los predicados que permiten representar observaciones sobre los otros agentes son cruciales para replicar el comportamiento del agente opaco y aumentar la fiabilidad de las explicaciones.
Descripción
La adopción de algoritmos basados en Inteligencia Artificial (IA) ha aumentado rápidamente en los últimos años. Sin embargo, algunos aspectos de las técnicas de IA están siendo sometidos a un escrutinio riguroso. Por ejemplo, en muchos casos de uso, no está claro si las decisiones de un algoritmo están bien informadas y se ajustan a la comprensión humana. Tener formas de abordar estas preocupaciones es crucial en muchos ámbitos, especialmente cuando los seres humanos y los agentes inteligentes (físicos o virtuales) deben cooperar en un entorno compartido. En este documento, aplicamos un método de explicabilidad basado en la creación de un Grafo de Políticas (PG) basado en predicados discretos que representan y explican el comportamiento de un agente entrenado en un entorno cooperativo multiagente. Mostramos que a partir de estos grafos de políticas, se pueden generar automáticamente políticas para agentes interpretables sustitutos. Estas políticas pueden utilizarse para medir la fiabilidad de las explicaciones habilitadas por los PG mediante una comparación de comportamiento justa entre el agente opaco original y el sustituto. Las contribuciones de este documento representan el primer caso de uso de grafos de políticas en el contexto de explicar el comportamiento de agentes en escenarios cooperativos multiagente y presentan resultados experimentales que distinguen este tipo de escenario de implementaciones anteriores en escenarios de un solo agente: al requerir comportamiento cooperativo, los predicados que permiten representar observaciones sobre los otros agentes son cruciales para replicar el comportamiento del agente opaco y aumentar la fiabilidad de las explicaciones.