Un flujo de trabajo de aprendizaje automático responsable con enfoque en modelos interpretables, explicación post-hoc y pruebas de discriminación
Autores: Gill, Navdeep; Hall, Patrick; Montgomery, Kim; Schmidt, Nicholas
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un flujo de trabajo de aprendizaje automático responsable con enfoque en modelos interpretables, explicación post-hoc y pruebas de discriminación
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Enfoque
Sistemas de aprendizaje automático
Herramientas de programación en Python
Modelos restringidos
Técnicas de explicación post-hoc
Pruebas de discriminación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este manuscrito describe un enfoque viable para entrenar y evaluar sistemas de aprendizaje automático para aplicaciones de alto riesgo, centradas en el ser humano o reguladas, utilizando herramientas comunes de programación en Python. Se evalúan la precisión y la interpretabilidad intrínseca de dos tipos de modelos restringidos, máquinas de impulso de gradiente monótonas y redes neuronales explicables, una arquitectura de aprendizaje profundo bien adaptada para datos estructurados, en datos simulados y datos hipotecarios disponibles públicamente. Para garantizar la máxima transparencia y la posible generación de avisos de acción adversa personalizados, los modelos restringidos se analizan utilizando técnicas de explicación post-hoc, incluyendo gráficos de dependencia parcial y expectativa condicional individual, así como la importancia de características de Shapley global y local. Las predicciones del modelo restringido también se prueban para detectar impacto dispar y otros tipos de discriminación utilizando medidas con precedentes legales de larga data, como la razón de impacto adverso, el efecto marginal y la diferencia media estandarizada, junto con medidas de equidad grupal sencillas. Al combinar modelos interpretables, explicaciones post-hoc y pruebas de discriminación con herramientas de software accesibles, este texto tiene como objetivo proporcionar un flujo de trabajo modelo para aplicaciones de aprendizaje automático que requieren alta precisión e interpretabilidad y que mitigan los riesgos de discriminación.
Descripción
Este manuscrito describe un enfoque viable para entrenar y evaluar sistemas de aprendizaje automático para aplicaciones de alto riesgo, centradas en el ser humano o reguladas, utilizando herramientas comunes de programación en Python. Se evalúan la precisión y la interpretabilidad intrínseca de dos tipos de modelos restringidos, máquinas de impulso de gradiente monótonas y redes neuronales explicables, una arquitectura de aprendizaje profundo bien adaptada para datos estructurados, en datos simulados y datos hipotecarios disponibles públicamente. Para garantizar la máxima transparencia y la posible generación de avisos de acción adversa personalizados, los modelos restringidos se analizan utilizando técnicas de explicación post-hoc, incluyendo gráficos de dependencia parcial y expectativa condicional individual, así como la importancia de características de Shapley global y local. Las predicciones del modelo restringido también se prueban para detectar impacto dispar y otros tipos de discriminación utilizando medidas con precedentes legales de larga data, como la razón de impacto adverso, el efecto marginal y la diferencia media estandarizada, junto con medidas de equidad grupal sencillas. Al combinar modelos interpretables, explicaciones post-hoc y pruebas de discriminación con herramientas de software accesibles, este texto tiene como objetivo proporcionar un flujo de trabajo modelo para aplicaciones de aprendizaje automático que requieren alta precisión e interpretabilidad y que mitigan los riesgos de discriminación.