logo móvil
Contáctanos
Portada

imagen./ Adam Zewé | Oficina de noticias del MIT

2023-05-31

Nueva herramienta ayuda a las personas a elegir el método correcto para evaluar modelos de IA


Cuando los modelos de aprendizaje automático se utilizan en situaciones reales, por ejemplo para detectar posibles enfermedades en radiografías que debe revisar un radiólogo, los usuarios humanos deben saber cuándo confiar en las predicciones del modelo.

Pero los modelos de aprendizaje automático son tan grandes y complejos que ni siquiera los científicos que los diseñan entienden exactamente cómo hacen las predicciones. Así que crean técnicas conocidas como métodos de prominencia que buscan explicar el comportamiento del modelo.

Ante la aparición constante de nuevos métodos, investigadores del MIT e IBM Research crearon una herramienta para ayudar a los usuarios a elegir el mejor método de prominencia para su tarea concreta. Desarrollaron tarjetas de selectividad, que proporcionan documentación estandarizada sobre el funcionamiento de un método, incluidos sus puntos fuertes y débiles y explicaciones para ayudar a los usuarios a interpretarlo correctamente.

Esperan que, armados con esta información, los usuarios puedan seleccionar deliberadamente un método de prominencia apropiado tanto para el tipo de modelo de aprendizaje automático que están usando como para la tarea que está realizando ese modelo, explica la coautora principal Angie Boggust, estudiante graduada en electricidad. ingeniería y ciencias de la computación en el MIT y miembro del Grupo de Visualización del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL).

Entrevistas con investigadores de IA y expertos de otros campos revelaron que las tarjetas ayudan a la gente a comparar rápidamente distintos métodos y a elegir la técnica adecuada para cada tarea. Elegir el método adecuado da a los usuarios una idea más precisa de cómo se comporta su modelo, por lo que están mejor equipados para interpretar correctamente sus predicciones.

"Las tarjetas de prominencia están diseñadas para ofrecer un resumen rápido y sencillo de un método de prominencia y desglosarlo en los atributos más importantes para el ser humano. Están pensadas para todo el mundo, desde investigadores de aprendizaje automático hasta usuarios profanos que intentan comprender qué método utilizar y elegir uno por primera vez", explica Boggust.

Junto a Boggust, son coautores del artículo Harini Suresh, postdoctorado del MIT; Hendrik Strobelt, investigador científico de IBM Research; John Guttag, catedrático Dugald C. Jackson de Informática e Ingeniería Eléctrica del MIT; y Arvind Satyanarayan, profesor asociado de Informática del MIT que dirige el Grupo de Visualización del CSAIL. La investigación se presentará en la Conferencia ACM sobre Equidad, Responsabilidad y Transparencia.

Elegir el método correcto

Los investigadores evaluaron previamente los métodos de prominencia utilizando la noción de fidelidad. En este contexto, la fidelidad captura la precisión con la que un método refleja el proceso de toma de decisiones de un modelo.

Pero la fidelidad no es una cuestión de blanco o negro, explica Boggust. Un método puede funcionar bien en una prueba de fidelidad, pero fallar en otra. Con tantos métodos de prominencia y tantas evaluaciones posibles, los usuarios suelen decantarse por un método porque es popular o porque lo ha utilizado un colega.

Sin embargo, elegir el método "equivocado" puede tener graves consecuencias. Por ejemplo, un método de prominencia, conocido como gradientes integrados, compara la importancia de las características de una imagen con una línea de base sin sentido. Las características con mayor importancia sobre la línea de base son las más significativas para la predicción del modelo. Este método suele utilizar todos los 0 como línea de base, pero si se aplica a imágenes, todos los 0 equivalen al color negro.

"Le dirá que los píxeles negros de la imagen no son importantes, aunque lo sean, porque son idénticos a esa línea de base sin sentido. Esto podría ser un gran problema si se observan radiografías, ya que el negro podría ser significativo para los médicos", explica Boggust. 

Las tarjetas de prominencia pueden ayudar a los usuarios a evitar este tipo de problemas al resumir cómo funciona un método de prominencia en términos de 10 atributos centrados en el usuario. Los atributos capturan la forma en que se calcula la prominencia, la relación entre el método de prominencia y el modelo, y cómo un usuario percibe sus resultados.

Por ejemplo, un atributo es la dependencia de hiperparámetros, que mide qué tan sensible es ese método de prominencia a los parámetros especificados por el usuario. Una tarjeta de prominencia para gradientes integrados describiría sus parámetros y cómo afectan su desempeño. Con la tarjeta, un usuario podía ver rápidamente que los parámetros predeterminados, una línea de base de todos los 0, podrían generar resultados engañosos al evaluar las radiografías.

Las tarjetas también podrían ser útiles para los científicos al exponer las lagunas en el espacio de investigación. Por ejemplo, los investigadores del MIT no pudieron identificar un método de prominencia que fuera computacionalmente eficiente, pero que también pudiera aplicarse a cualquier modelo de aprendizaje automático.

“¿Podemos llenar ese vacío? ¿Existe un método de prominencia que pueda hacer ambas cosas? O tal vez estas dos ideas están teóricamente en conflicto entre sí”, dice Boggust.

Mostrando sus cartas

Una vez que crearon varias tarjetas, el equipo realizó un estudio de usuarios con ocho expertos en el dominio, desde informáticos hasta un radiólogo que no estaba familiarizado con el aprendizaje automático. Durante las entrevistas, todos los participantes dijeron que las descripciones concisas les ayudaron a priorizar atributos y comparar métodos. Y aunque no estaba familiarizado con el aprendizaje automático, el radiólogo pudo entender las tarjetas y usarlas para participar en el proceso de elección de un método de prominencia, dice Boggust.

Las entrevistas también revelaron algunas sorpresas. Los investigadores a menudo esperan que los médicos quieran un método que sea nítido, lo que significa que se enfoca en un objeto particular en una imagen médica. Pero el médico de este estudio en realidad prefirió algo de ruido en las imágenes médicas para ayudarlas a atenuar la incertidumbre.

“Cuando lo desglosamos en estos diferentes atributos y le preguntamos a la gente, ninguna persona tenía las mismas prioridades que los demás en el estudio, incluso cuando estaban en el mismo rol”, dice ella.

En el futuro, los investigadores quieren explorar algunos de los atributos menos evaluados y tal vez diseñar métodos de prominencia específicos de la tarea. También quieren desarrollar una mejor comprensión de cómo las personas perciben los resultados del método de prominencia, lo que podría conducir a mejores visualizaciones. Además, alojan su trabajo en un repositorio público para que otros puedan brindar comentarios que impulsarán el trabajo futuro, dice Boggust.

“Tenemos muchas esperanzas de que estos sean documentos vivos que crezcan a medida que se desarrollen nuevos métodos y evaluaciones de relevancia. Al final, esto es realmente solo el comienzo de una conversación más amplia sobre cuáles son los atributos de un método de prominencia y cómo se relacionan con diferentes tareas”, dice.

La investigación fue apoyada, en parte, por el MIT-IBM Watson AI Lab, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU.


Autor

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro