logo móvil
Contáctanos
Portada

Imagen: Fotografías cortesía de los investigadores, editadas por Jose-Luis Olivares, MIT

2022-01-28

Desmitificando los sistemas de aprendizaje automático


Las redes neuronales a veces se denominan cajas negras porque, a pesar de que pueden superar a los humanos en ciertas tareas, incluso los investigadores que las diseñan a menudo no entienden cómo o por qué funcionan tan bien. Pero si se usa una red neuronal fuera del laboratorio, tal vez para clasificar imágenes médicas que podrían ayudar a diagnosticar afecciones cardíacas, saber cómo funciona el modelo ayuda a los investigadores a predecir cómo se comportará en la práctica.

Los investigadores del MIT ahora han desarrollado un método que arroja algo de luz sobre el funcionamiento interno de las redes neuronales de caja negra. Modeladas a partir del cerebro humano, las redes neuronales se organizan en capas de nodos interconectados, o "neuronas", que procesan datos. El nuevo sistema puede producir automáticamente descripciones de esas neuronas individuales, generadas en inglés u otro idioma natural.

Por ejemplo, en una red neuronal entrenada para reconocer animales en imágenes, su método podría describir una determinada neurona detectando orejas de zorros. Su técnica escalable es capaz de generar descripciones más precisas y específicas para neuronas individuales que otros métodos.

En un nuevo artículo , el equipo muestra que este método se puede usar para auditar una red neuronal para determinar lo que ha aprendido, o incluso editar una red identificando y luego apagando las neuronas inútiles o incorrectas.

“Queríamos crear un método en el que un practicante de aprendizaje automático pueda darle a este sistema su modelo y les dirá todo lo que sabe sobre ese modelo, desde la perspectiva de las neuronas del modelo, en lenguaje. Esto lo ayuda a responder la pregunta básica: ¿Hay algo que mi modelo sepa que no hubiera esperado que supiera?”, dice Evan Hernandez, estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y autor principal. del papel

Los coautores incluyen a Sarah Schwettmann, postdoctorado en CSAIL; David Bau, un recién graduado de CSAIL que es profesor asistente entrante de ciencias de la computación en la Universidad Northeastern; Teona Bagashvili, ex estudiante visitante en CSAIL; Antonio Torralba, Catedrático de Ingeniería Eléctrica e Informática de Delta Electronics y miembro del CSAIL; y el autor principal Jacob Andreas, profesor asistente del X Consortium en CSAIL. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Descripciones generadas automáticamente

La mayoría de las técnicas existentes que ayudan a los profesionales del aprendizaje automático a comprender cómo funciona un modelo describen la red neuronal completa o requieren que los investigadores identifiquen los conceptos en los que creen que las neuronas individuales podrían centrarse.

El sistema desarrollado por Hernández y sus colaboradores, denominado MILAN (anotación lingüística guiada por información mutua de neuronas), mejora estos métodos porque no requiere una lista de conceptos por adelantado y puede generar automáticamente descripciones en lenguaje natural de todas las neuronas en una red. . Esto es especialmente importante porque una red neuronal puede contener cientos de miles de neuronas individuales.

MILAN produce descripciones de neuronas en redes neuronales entrenadas para tareas de visión artificial como el reconocimiento de objetos y la síntesis de imágenes. Para describir una neurona dada, el sistema primero inspecciona el comportamiento de esa neurona en miles de imágenes para encontrar el conjunto de regiones de imagen en las que la neurona está más activa. A continuación, selecciona una descripción en lenguaje natural para cada neurona para maximizar una cantidad llamada información mutua puntual entre las regiones de la imagen y las descripciones. Esto fomenta las descripciones que capturan el papel distintivo de cada neurona dentro de la red más grande.

“En una red neuronal entrenada para clasificar imágenes, habrá toneladas de neuronas diferentes que detectan perros. Pero hay muchos tipos diferentes de perros y muchas partes diferentes de perros. Entonces, aunque perro podría ser una descripción precisa de muchas de estas neuronas, no es muy informativo. Queremos descripciones que sean muy específicas de lo que está haciendo esa neurona. Esto no es solo perros; este es el lado izquierdo de las orejas de los pastores alemanes”, dice Hernández.

El equipo comparó MILAN con otros modelos y descubrió que generaba descripciones más ricas y precisas, pero los investigadores estaban más interesados ​​en ver cómo podría ayudar a responder preguntas específicas sobre los modelos de visión artificial.      

Análisis, auditoría y edición de redes neuronales

Primero, usaron MILAN para analizar qué neuronas son más importantes en una red neuronal. Generaron descripciones para cada neurona y las clasificaron según las palabras de las descripciones. Quitaron lentamente las neuronas de la red para ver cómo cambiaba su precisión y descubrieron que las neuronas que tenían dos palabras muy diferentes en sus descripciones (jarrones y fósiles, por ejemplo) eran menos importantes para la red.

También usaron MILAN para auditar modelos para ver si aprendieron algo inesperado. Los investigadores tomaron modelos de clasificación de imágenes que fueron entrenados en conjuntos de datos en los que los rostros humanos estaban borrosos, ejecutaron MILAN y contaron cuántas neuronas eran sensibles a los rostros humanos.

“Difuminar las caras de esta manera reduce la cantidad de neuronas que son sensibles a las caras, pero no las elimina. De hecho, planteamos la hipótesis de que algunas de estas neuronas faciales son muy sensibles a grupos demográficos específicos, lo cual es bastante sorprendente. Estos modelos nunca antes habían visto un rostro humano y, sin embargo, todo tipo de procesamiento facial ocurre dentro de ellos”, dice Hernández.

En un tercer experimento, el equipo usó MILAN para editar una red neuronal encontrando y eliminando neuronas que detectaban malas correlaciones en los datos, lo que llevó a un aumento del 5 por ciento en la precisión de la red en las entradas que mostraban la correlación problemática.

Si bien los investigadores quedaron impresionados por el buen desempeño de MILAN en estas tres aplicaciones, el modelo a veces da descripciones que aún son demasiado vagas, o hace una suposición incorrecta cuando no conoce el concepto que se supone que debe identificar.

Están planeando abordar estas limitaciones en trabajos futuros. También quieren seguir mejorando la riqueza de las descripciones que MILAN es capaz de generar. Esperan aplicar MILAN a otros tipos de redes neuronales y usarlo para describir qué hacen los grupos de neuronas, ya que las neuronas trabajan juntas para producir una salida.

“Este es un enfoque de la interpretabilidad que comienza de abajo hacia arriba. El objetivo es generar descripciones compositivas abiertas de función con lenguaje natural. Queremos aprovechar el poder expresivo del lenguaje humano para generar descripciones que sean mucho más naturales y ricas para lo que hacen las neuronas. Poder generalizar este enfoque a diferentes tipos de modelos es lo que más me emociona”, dice Schwettmann.

“La prueba definitiva de cualquier técnica para la IA explicable es si puede ayudar a los investigadores y usuarios a tomar mejores decisiones sobre cuándo y cómo implementar los sistemas de IA”, dice Andreas. “Todavía estamos muy lejos de poder hacer eso de manera general. Pero soy optimista de que MILAN, y el uso del lenguaje como una herramienta explicativa más ampliamente, será una parte útil de la caja de herramientas”.


Este trabajo fue financiado, en parte, por el MIT-IBM Watson AI Lab y la iniciativa SystemsThatLearn@CSAIL.

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro