Investigando y mitigando el equilibrio entre rendimiento y equidad a través del muestreo de categorías protegidas
Autores: Popoola, Gideon; Sheppard, John
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Investigando y mitigando el equilibrio entre rendimiento y equidad a través del muestreo de categorías protegidas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmos de aprendizaje automático
Mitigación de sesgos
Variables protegidas
Métodos de muestreo
Equidad
Rendimiento de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Los algoritmos de aprendizaje automático se han vuelto comunes en la toma de decisiones cotidianas, y los sistemas de asistencia a la decisión son omnipresentes en nuestra vida diaria. Por lo tanto, la investigación sobre la prevención y mitigación de posibles sesgos e injusticias en las predicciones realizadas por estos algoritmos ha ido en aumento en los últimos años. La mayoría de las investigaciones sobre equidad y mitigación de sesgos en el aprendizaje automático a menudo trata cada variable protegida por separado, pero en realidad es posible que una persona pertenezca a múltiples categorías protegidas. Por lo tanto, en este trabajo, se examinó la combinación de un conjunto de variables protegidas y la generación de nuevas columnas que separan estas variables protegidas en muchas subcategorías. Estas nuevas subcategorías tienden a ser extremadamente desequilibradas, por lo que la mitigación de sesgos se abordó como un problema de clasificación desequilibrado. Específicamente, se desarrollaron e investigaron cuatro nuevos métodos de muestreo personalizados para muestrear estas nuevas subcategorías. Estos nuevos métodos de muestreo se denominan sobremuestreo de categoría protegida, muestreo proporcional de categoría protegida, Técnica de sobremuestreo sintético de categoría protegida (PC-SMOTE) y Muestreo sintético adaptativo de categoría protegida (PC-ADASYN). Estos métodos de muestreo modifican el método de muestreo existente al enfocar su muestreo en las nuevas subcategorías en lugar de la etiqueta de clase. Luego, se evaluó el impacto de estas estrategias de muestreo en función del rendimiento clásico y la equidad en entornos de clasificación. El rendimiento de la clasificación se midió utilizando precisión y F1 basado en la capacitación de árboles de decisión univariados, y la equidad se midió utilizando diferencias de probabilidades igualadas y paridad estadística. Para evaluar el impacto de la equidad versus el rendimiento, estas medidas se evaluaron en función de la profundidad del árbol de decisión. Los resultados muestran que los métodos propuestos fueron capaces de determinar puntos óptimos, aumentando la equidad sin disminuir el rendimiento, mitigando así cualquier posible compensación entre rendimiento y equidad.
Descripción
Los algoritmos de aprendizaje automático se han vuelto comunes en la toma de decisiones cotidianas, y los sistemas de asistencia a la decisión son omnipresentes en nuestra vida diaria. Por lo tanto, la investigación sobre la prevención y mitigación de posibles sesgos e injusticias en las predicciones realizadas por estos algoritmos ha ido en aumento en los últimos años. La mayoría de las investigaciones sobre equidad y mitigación de sesgos en el aprendizaje automático a menudo trata cada variable protegida por separado, pero en realidad es posible que una persona pertenezca a múltiples categorías protegidas. Por lo tanto, en este trabajo, se examinó la combinación de un conjunto de variables protegidas y la generación de nuevas columnas que separan estas variables protegidas en muchas subcategorías. Estas nuevas subcategorías tienden a ser extremadamente desequilibradas, por lo que la mitigación de sesgos se abordó como un problema de clasificación desequilibrado. Específicamente, se desarrollaron e investigaron cuatro nuevos métodos de muestreo personalizados para muestrear estas nuevas subcategorías. Estos nuevos métodos de muestreo se denominan sobremuestreo de categoría protegida, muestreo proporcional de categoría protegida, Técnica de sobremuestreo sintético de categoría protegida (PC-SMOTE) y Muestreo sintético adaptativo de categoría protegida (PC-ADASYN). Estos métodos de muestreo modifican el método de muestreo existente al enfocar su muestreo en las nuevas subcategorías en lugar de la etiqueta de clase. Luego, se evaluó el impacto de estas estrategias de muestreo en función del rendimiento clásico y la equidad en entornos de clasificación. El rendimiento de la clasificación se midió utilizando precisión y F1 basado en la capacitación de árboles de decisión univariados, y la equidad se midió utilizando diferencias de probabilidades igualadas y paridad estadística. Para evaluar el impacto de la equidad versus el rendimiento, estas medidas se evaluaron en función de la profundidad del árbol de decisión. Los resultados muestran que los métodos propuestos fueron capaces de determinar puntos óptimos, aumentando la equidad sin disminuir el rendimiento, mitigando así cualquier posible compensación entre rendimiento y equidad.