Explorando Métodos de Evaluación para el Aprendizaje Automático Interpretable: Una Encuesta
Autores: Alangari, Nourah; El Bachir Menai, Mohamed; Mathkour, Hassan; Almosallam, Ibrahim
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Explorando Métodos de Evaluación para el Aprendizaje Automático Interpretable: Una Encuesta
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje automático
Interpretabilidad
Métodos de evaluación
Modelos de caja negra
Precisión predictiva
Métricas computacionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En tiempos recientes, el progreso del aprendizaje automático ha facilitado el desarrollo de sistemas de apoyo a la decisión que exhiben una precisión predictiva que supera las capacidades humanas en ciertos escenarios. Sin embargo, esta mejora ha venido acompañada de un aumento en la complejidad del modelo, convirtiéndolos en modelos de caja negra que oscurecen su lógica interna para los usuarios. Estas cajas negras están diseñadas principalmente para optimizar la precisión predictiva, limitando su aplicabilidad en dominios críticos como la medicina, el derecho y las finanzas, donde tanto la precisión como la interpretabilidad son factores cruciales para la aceptación del modelo. A pesar del creciente cuerpo de investigación sobre interpretabilidad, sigue existiendo una notable escasez de métodos de evaluación para los enfoques propuestos. Esta encuesta tiene como objetivo arrojar luz sobre varios métodos de evaluación empleados en la interpretación de modelos. Dos procedimientos principales son prevalentes en la literatura: evaluaciones cualitativas y cuantitativas. Las evaluaciones cualitativas se basan en valoraciones humanas, mientras que las evaluaciones cuantitativas utilizan métricas computacionales. La evaluación humana se manifiesta comúnmente como intuición del investigador o experimentos bien diseñados. Sin embargo, este enfoque es susceptible a sesgos humanos y fatiga y no puede comparar adecuadamente dos modelos. En consecuencia, ha habido un reciente declive en el uso de la evaluación humana, con métricas computacionales ganando prominencia como un método más riguroso para comparar y evaluar diferentes enfoques. Estas métricas están diseñadas para servir a objetivos específicos, como fidelidad, comprensibilidad o estabilidad. Las métricas existentes a menudo enfrentan desafíos al escalar o ser aplicadas a diferentes tipos de salidas de modelos y enfoques alternativos. Otro factor importante que necesita ser abordado es que, al evaluar métodos de interpretabilidad, sus resultados pueden no ser siempre completamente precisos. Por ejemplo, confiar en la caída de probabilidad para evaluar la fidelidad puede ser problemático, particularmente cuando se enfrenta al desafío de datos fuera de distribución. Además, un desafío fundamental en el dominio de la interpretabilidad es la falta de consenso respecto a su definición y requisitos. Este problema se complica en el proceso de evaluación y se hace particularmente evidente al evaluar la comprensibilidad.
Descripción
En tiempos recientes, el progreso del aprendizaje automático ha facilitado el desarrollo de sistemas de apoyo a la decisión que exhiben una precisión predictiva que supera las capacidades humanas en ciertos escenarios. Sin embargo, esta mejora ha venido acompañada de un aumento en la complejidad del modelo, convirtiéndolos en modelos de caja negra que oscurecen su lógica interna para los usuarios. Estas cajas negras están diseñadas principalmente para optimizar la precisión predictiva, limitando su aplicabilidad en dominios críticos como la medicina, el derecho y las finanzas, donde tanto la precisión como la interpretabilidad son factores cruciales para la aceptación del modelo. A pesar del creciente cuerpo de investigación sobre interpretabilidad, sigue existiendo una notable escasez de métodos de evaluación para los enfoques propuestos. Esta encuesta tiene como objetivo arrojar luz sobre varios métodos de evaluación empleados en la interpretación de modelos. Dos procedimientos principales son prevalentes en la literatura: evaluaciones cualitativas y cuantitativas. Las evaluaciones cualitativas se basan en valoraciones humanas, mientras que las evaluaciones cuantitativas utilizan métricas computacionales. La evaluación humana se manifiesta comúnmente como intuición del investigador o experimentos bien diseñados. Sin embargo, este enfoque es susceptible a sesgos humanos y fatiga y no puede comparar adecuadamente dos modelos. En consecuencia, ha habido un reciente declive en el uso de la evaluación humana, con métricas computacionales ganando prominencia como un método más riguroso para comparar y evaluar diferentes enfoques. Estas métricas están diseñadas para servir a objetivos específicos, como fidelidad, comprensibilidad o estabilidad. Las métricas existentes a menudo enfrentan desafíos al escalar o ser aplicadas a diferentes tipos de salidas de modelos y enfoques alternativos. Otro factor importante que necesita ser abordado es que, al evaluar métodos de interpretabilidad, sus resultados pueden no ser siempre completamente precisos. Por ejemplo, confiar en la caída de probabilidad para evaluar la fidelidad puede ser problemático, particularmente cuando se enfrenta al desafío de datos fuera de distribución. Además, un desafío fundamental en el dominio de la interpretabilidad es la falta de consenso respecto a su definición y requisitos. Este problema se complica en el proceso de evaluación y se hace particularmente evidente al evaluar la comprensibilidad.