Multiparty dynamics and failure modes for machine learning and artificial intelligence
Autores: Manheim, David
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Multiparty dynamics and failure modes for machine learning and artificial intelligence
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Reto
Seguridad
Aprendizaje automático
Inteligencia artificial
Modos de falla
Sistemas multiagentes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Un importante desafío para la seguridad en sistemas de aprendizaje automático e inteligencia artificial es un conjunto de fallas relacionadas que involucran el juego de especificaciones, la manipulación de recompensas, la fragilidad ante cambios en la distribución, y la ley de Goodhart o Campbell. Este documento presenta modos adicionales de falla para las interacciones dentro de sistemas multiagentes que están estrechamente relacionados. Estos modos de falla en sistemas multiagentes son más complejos, más problemáticos y menos comprendidos que en el caso de un solo agente, y también están ocurriendo, en gran medida, desapercibidos. Tras motivar la discusión con ejemplos de inteligencia artificial que juega al póker, el documento explica por qué estos modos de falla son en cierto sentido inevitables. A continuación, el documento categoriza los modos de falla, proporciona definiciones y cita ejemplos para cada uno de los modos: dirección accidental, fallas de coordinación, desalineación adversarial, suplantación y filtrado de entradas, y cooptación de objetivos o hackeo directo. Luego, el documento analiza cómo la literatura existente sobre inteligencia artificial multiagente no aborda estos modos de falla, e identifica trabajos que pueden ser útiles para mitigar estos modos de falla.
Descripción
Un importante desafío para la seguridad en sistemas de aprendizaje automático e inteligencia artificial es un conjunto de fallas relacionadas que involucran el juego de especificaciones, la manipulación de recompensas, la fragilidad ante cambios en la distribución, y la ley de Goodhart o Campbell. Este documento presenta modos adicionales de falla para las interacciones dentro de sistemas multiagentes que están estrechamente relacionados. Estos modos de falla en sistemas multiagentes son más complejos, más problemáticos y menos comprendidos que en el caso de un solo agente, y también están ocurriendo, en gran medida, desapercibidos. Tras motivar la discusión con ejemplos de inteligencia artificial que juega al póker, el documento explica por qué estos modos de falla son en cierto sentido inevitables. A continuación, el documento categoriza los modos de falla, proporciona definiciones y cita ejemplos para cada uno de los modos: dirección accidental, fallas de coordinación, desalineación adversarial, suplantación y filtrado de entradas, y cooptación de objetivos o hackeo directo. Luego, el documento analiza cómo la literatura existente sobre inteligencia artificial multiagente no aborda estos modos de falla, e identifica trabajos que pueden ser útiles para mitigar estos modos de falla.