logo móvil
Contáctanos
Portada

Imagen. / MIT

2022-06-02

¿En el sesgo confiamos?


Cuando hay mucho en juego, a veces se utilizan modelos de aprendizaje automático para ayudar a los humanos a tomar decisiones. Por ejemplo, un modelo podría predecir qué solicitantes de la facultad de derecho tienen más probabilidades de aprobar el examen de la barra para ayudar a un oficial de admisiones a determinar qué estudiantes deben ser aceptados.

Estos modelos a menudo tienen millones de parámetros, por lo que la forma en que hacen predicciones es casi imposible de entender por completo para los investigadores, y mucho menos para un oficial de admisiones sin experiencia en aprendizaje automático. Los investigadores a veces emplean métodos de explicación que imitan un modelo más grande al crear aproximaciones simples de sus predicciones. Estas aproximaciones, que son mucho más fáciles de entender, ayudan a los usuarios a determinar si confiar en las predicciones del modelo.

Pero, ¿son justos estos métodos de explicación? Si un método de explicación proporciona mejores aproximaciones para hombres que para mujeres, o para personas blancas que para personas negras, puede alentar a los usuarios a confiar en las predicciones del modelo para algunas personas pero no para otras.

Los investigadores del MIT analizaron detenidamente la imparcialidad de algunos métodos de explicación ampliamente utilizados. Descubrieron que la calidad de aproximación de estas explicaciones puede variar drásticamente entre subgrupos y que la calidad suele ser significativamente menor para los subgrupos minoritarios.

En la práctica, esto significa que si la calidad de la aproximación es menor para las postulantes mujeres, existe un desajuste entre las explicaciones y las predicciones del modelo que podría llevar al oficial de admisiones a rechazar erróneamente a más mujeres que hombres.

Una vez que los investigadores del MIT vieron cuán generalizadas son estas brechas de equidad, probaron varias técnicas para nivelar el campo de juego. Pudieron reducir algunas brechas, pero no pudieron erradicarlas.

“Lo que esto significa en el mundo real es que las personas pueden confiar incorrectamente en las predicciones más para algunos subgrupos que para otros. Por lo tanto, es importante mejorar los modelos de explicación, pero es igualmente importante comunicar los detalles de estos modelos a los usuarios finales. Estas brechas existen, por lo que los usuarios pueden querer ajustar sus expectativas en cuanto a lo que obtienen cuando usan estas explicaciones”, dice la autora principal Aparna Balagopalan, estudiante de posgrado en el grupo Healthy ML del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). ).

Balagopalan escribió el artículo con los estudiantes graduados de CSAIL, Haoran Zhang y Kimia Hamidieh; el posdoctorado de CSAIL Thomas Hartvigsen; Frank Rudzicz, profesor asociado de informática en la Universidad de Toronto; y la autora principal Marzyeh Ghassemi, profesora asistente y directora del Healthy ML Group. La investigación se presentará en la Conferencia ACM sobre equidad, responsabilidad y transparencia.

Alta fidelidad

Los modelos de explicación simplificados pueden aproximarse a las predicciones de un modelo de aprendizaje automático más complejo de una manera que los humanos puedan comprender. Un modelo de explicación efectivo maximiza una propiedad conocida como fidelidad, que mide qué tan bien coincide con las predicciones del modelo más grande.

En lugar de centrarse en la fidelidad promedio para el modelo de explicación general, los investigadores del MIT estudiaron la fidelidad de los subgrupos de personas en el conjunto de datos del modelo. En un conjunto de datos con hombres y mujeres, la fidelidad debe ser muy similar para cada grupo, y ambos grupos deben tener una fidelidad cercana a la del modelo de explicación general.

“Cuando solo observa la fidelidad promedio en todas las instancias, es posible que se esté perdiendo artefactos que podrían existir en el modelo de explicación”, dice Balagopalan.

Desarrollaron dos métricas para medir las brechas de fidelidad, o disparidades en la fidelidad entre subgrupos. Una es la diferencia entre la fidelidad promedio en todo el modelo de explicación y la fidelidad del subgrupo con peor desempeño. El segundo calcula la diferencia absoluta en fidelidad entre todos los posibles pares de subgrupos y luego calcula el promedio.

Con estas métricas, buscaron brechas de fidelidad utilizando dos tipos de modelos de explicación que fueron entrenados en cuatro conjuntos de datos del mundo real para situaciones de alto riesgo, como predecir si un paciente muere en la UCI, si un acusado reincide o si una ley el solicitante de la escuela aprobará el examen de la barra. Cada conjunto de datos contenía atributos protegidos, como el sexo y la raza de personas individuales. Los atributos protegidos son características que no se pueden usar para tomar decisiones, a menudo debido a leyes o políticas de la organización. La definición de estos puede variar según la tarea específica de cada entorno de decisión.

Los investigadores encontraron claros vacíos de fidelidad para todos los conjuntos de datos y modelos de explicación. La fidelidad de los grupos desfavorecidos fue a menudo mucho menor, hasta el 21 por ciento en algunos casos. El conjunto de datos de la facultad de derecho tenía una brecha de fidelidad del 7 % entre los subgrupos raciales, lo que significa que las aproximaciones para algunos subgrupos eran incorrectas un 7 % más a menudo en promedio. Si hay 10 000 solicitantes de estos subgrupos en el conjunto de datos, por ejemplo, una parte significativa podría ser rechazada por error, explica Balagopalan.

“Me sorprendió lo generalizadas que son estas brechas de fidelidad en todos los conjuntos de datos que evaluamos. Es difícil exagerar cuán comúnmente se usan las explicaciones como una "solución" para los modelos de aprendizaje automático de caja negra. En este artículo, mostramos que los métodos de explicación en sí mismos son aproximaciones imperfectas que pueden ser peores para algunos subgrupos”, dice Ghassemi.

Estrechando las brechas

Después de identificar las brechas de fidelidad, los investigadores probaron algunos enfoques de aprendizaje automático para solucionarlas. Entrenaron los modelos de explicación para identificar regiones de un conjunto de datos que podrían ser propensos a la baja fidelidad y luego se centraron más en esas muestras. También intentaron usar conjuntos de datos equilibrados con un número igual de muestras de todos los subgrupos.

Estas sólidas estrategias de capacitación redujeron algunas brechas de fidelidad, pero no las eliminaron.

Luego, los investigadores modificaron los modelos de explicación para explorar por qué ocurren las brechas de fidelidad en primer lugar. Su análisis reveló que un modelo de explicación podría usar indirectamente información de grupo protegida, como sexo o raza, que podría aprender del conjunto de datos, incluso si las etiquetas de grupo están ocultas.

Quieren explorar más este enigma en trabajos futuros. También planean estudiar más a fondo las implicaciones de las brechas de fidelidad en el contexto de la toma de decisiones en el mundo real.

Balagopalan está emocionado de ver que el trabajo simultáneo sobre la imparcialidad de las explicaciones de un laboratorio independiente ha llegado a conclusiones similares, lo que destaca la importancia de comprender bien este problema.

Mientras mira hacia la siguiente fase de esta investigación, tiene algunas palabras de advertencia para los usuarios de aprendizaje automático.

“Elige el modelo de explicación con cuidado. Pero lo que es aún más importante, piense detenidamente sobre los objetivos de usar un modelo de explicación y a quién afectará eventualmente”, dice ella.

"Creo que este documento es una adición muy valiosa al discurso sobre la equidad en ML", dice Krzysztof Gajos, profesor de informática Gordon McKay en la Escuela de Ingeniería y Ciencias Aplicadas John A. Paulson de Harvard, que no participó en este trabajo. . "Lo que encontré particularmente interesante e impactante fue la evidencia inicial de que las disparidades en la fidelidad de la explicación pueden tener impactos medibles en la calidad de las decisiones tomadas por personas asistidas por modelos de aprendizaje automático. Si bien la diferencia estimada en la calidad de la decisión puede parecer pequeña ( alrededor de 1 punto porcentual), sabemos que los efectos acumulativos de diferencias aparentemente pequeñas pueden cambiar la vida".

Este trabajo fue financiado, en parte, por MIT-IBM Watson AI Lab, Quanta Research Institute, una cátedra de IA del Instituto Canadiense de Investigación Avanzada y Microsoft Research.

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro