logo móvil
Contáctanos
Portada

M. Faldor et al./arXiv.org 2024

2024-08-05

¿Podemos entrenar a la IA para que sea creativa? Un laboratorio está probando ideas


El conocimiento humano se deriva en parte de nuestro olfato para la novedad: somos criaturas curiosas, ya sea que miremos por los rincones o probemos hipótesis científicas. Para que la inteligencia artificial tenga una comprensión amplia y matizada del mundo (para poder sortear obstáculos cotidianos, interactuar con desconocidos o inventar nuevos medicamentos), también necesita explorar nuevas ideas y experiencias por sí sola. Pero con infinitas posibilidades de qué hacer a continuación, ¿cómo puede la IA decidir qué direcciones son las más novedosas y útiles?


Un nuevo sistema llamado OMNI-EPIC genera tareas nuevas e “interesantes”, como destruir una torre de bloques, y entrena agentes de IA para completarlas. M. Faldor et al./arXiv.org 2024


Una idea es aprovechar automáticamente la intuición humana para decidir qué es interesante a través de grandes modelos de lenguaje entrenados con cantidades masivas de texto humano, el tipo de software que impulsa a los chatbots. Dos nuevos artículos adoptan este enfoque y sugieren un camino hacia los autos autónomos más inteligentes, por ejemplo, o hacia el descubrimiento científico automatizado.

“Ambos trabajos son avances significativos hacia la creación de sistemas de aprendizaje abiertos”, dice Tim Rocktäschel, un científico informático de Google DeepMind y University College London que no participó en el trabajo. Los LLM ofrecen una manera de priorizar qué posibilidades explorar. “Lo que solía ser un espacio de búsqueda prohibitivamente grande de repente se vuelve manejable”, dice Rocktäschel. Aunque algunos expertos temen que la IA abierta (IA con poderes exploratorios relativamente ilimitados) pueda descarrilarse.

Cómo los LLM pueden orientar a los agentes de IA

Ambos artículos nuevos, publicados en línea en mayo en arXiv.org y aún no revisados ​​por pares, provienen del laboratorio del científico informático Jeff Clune en la Universidad de Columbia Británica en Vancouver y se basan directamente en proyectos anteriores suyos. En 2018, él y sus colaboradores crearon un sistema llamado Go-Explore (publicado en Nature en 2021) que aprende a, por ejemplo, jugar videojuegos que requieren exploración. Go-Explore incorpora un agente de juego que mejora a través de un proceso de prueba y error llamado aprendizaje de refuerzo (SN : 25/3/24). El sistema guarda periódicamente el progreso del agente en un archivo, luego elige estados interesantes guardados y progresa a partir de allí. Pero la selección de estados interesantes se basa en reglas codificadas a mano, como elegir ubicaciones que no se han visitado mucho. Es una mejora con respecto a la selección aleatoria, pero también es rígida.

El laboratorio de Clune ha creado ahora Intelligent Go-Explore , que utiliza un gran modelo de lenguaje, en este caso GPT-4, en lugar de las reglas codificadas a mano para seleccionar estados "prometedores" del archivo. El modelo de lenguaje también selecciona acciones de esos estados que ayudarán al sistema a explorar de forma "inteligente" y decide si los estados resultantes son lo suficientemente "interesantemente nuevos" como para ser archivados.

Los LLM pueden actuar como una especie de “pegamento de inteligencia” que puede desempeñar varias funciones en un sistema de IA debido a sus capacidades generales, dice Julian Togelius, un científico informático de la Universidad de Nueva York que no participó en el trabajo. “Puedes simplemente verterlo en el agujero de, por ejemplo, un detector de novedades, y funciona. Es una locura”.

Los investigadores probaron Intelligent Go-Explore, o IGE, en tres tipos de tareas que requieren soluciones de varios pasos e implican el procesamiento y la salida de texto. En una, el sistema debe ordenar números y operaciones aritméticas para producir el número 24. En otra, completa tareas en un mundo de cuadrícula en 2-D, como mover objetos, basándose en descripciones e instrucciones de texto. En una tercera, juega juegos en solitario que implican cocinar, buscar tesoros o recolectar monedas en un laberinto, también basados ​​en texto. Después de cada acción, el sistema recibe una nueva observación —“Llegas a una despensa… Ves un estante. El estante es de madera. En el estante puedes ver harina…” es un ejemplo del juego de cocina— y elige una nueva acción.

Los investigadores compararon el método IGE con otros cuatro métodos. Uno de ellos tomaba muestras de acciones al azar y los otros introducían el estado actual del juego y el historial en un LLM y pedían una acción. No utilizaron un archivo de estados de juego interesantes. El método IGE superó a todos los métodos de comparación: al recolectar monedas, ganó 22 de 25 juegos, mientras que ninguno de los otros ganó ninguno. Es de suponer que el sistema funcionó tan bien al construir de forma iterativa y selectiva sobre estados y acciones interesantes, imitando así el proceso de creatividad en los humanos.

Poniendo a prueba la creatividad de la IA

El Go-Explore inteligente superó las acciones seleccionadas aleatoriamente y otros tres enfoques en juegos en solitario que implican procesar y generar texto.

Según los investigadores, la IGE podría ayudar a descubrir nuevos fármacos o materiales, especialmente si incorpora imágenes u otros datos. El coautor del estudio, Cong Lu, de la Universidad de Columbia Británica, afirma que encontrar direcciones interesantes para la exploración es, en muchos sentidos, “el problema central” del aprendizaje por refuerzo. Clune afirma que estos sistemas “permiten a la IA ver más allá al apoyarse en conjuntos de datos humanos gigantes”.

La IA inventa nuevas tareas

El segundo sistema nuevo no solo explora formas de resolver tareas asignadas. Como si fueran niños que inventan un juego, genera nuevas tareas para aumentar las habilidades de los agentes de IA. Este sistema se basa en otro creado por el laboratorio de Clune el año pasado llamado OMNI (por Open-endedness via Models of human Notions of Interestingness). Dentro de un entorno virtual dado, como una versión 2-D de Minecraft, un LLM sugería nuevas tareas para que un agente de IA las intentara basándose en tareas anteriores que había superado o fallado, creando así un plan de estudios automáticamente. Pero OMNI estaba confinado a entornos virtuales creados manualmente.

Por ello, los investigadores crearon OMNI-EPIC (OMNI with Environments Programmed In Code). Para sus experimentos, utilizaron un simulador de física (un entorno virtual relativamente en blanco) y sembraron en el archivo algunas tareas de ejemplo, como patear una pelota entre postes, cruzar un puente y subir un tramo de escaleras. Cada tarea está representada por una descripción en lenguaje natural junto con el código informático correspondiente.

OMNI-EPIC elige una tarea y utiliza LLM para crear una descripción y un código para una nueva variación, luego otro LLM para decidir si la nueva tarea es “interesante” (novedosa, creativa, divertida, útil y no demasiado fácil ni demasiado difícil). Si es interesante, el agente de IA se entrena en la tarea a través del aprendizaje de refuerzo y la tarea se guarda en el archivo, junto con el agente recién entrenado y si tuvo éxito. El proceso se repite, creando un árbol ramificado de tareas nuevas y más complejas junto con agentes de IA que pueden completarlas. Rocktäschel dice que OMNI-EPIC “aborda un talón de Aquiles de la investigación de final abierto, es decir, cómo encontrar automáticamente tareas que sean a la vez aprendibles y novedosas”.


Tareas animadas generadas por IA con ayuda de LLMAquí se muestra una serie de desafíos de aprendizaje generados por OMNI-EPIC. Los desafíos son nuevos y apropiadamente difíciles para estos sistemas. M. FALDOR ET AL./ARXIV.ORG 2024


Es difícil medir objetivamente el éxito de un algoritmo como OMNI-EPIC, pero la diversidad de nuevas tareas y habilidades de los agentes generadas sorprendió a Jenny Zhang, coautora del artículo de OMNI-EPIC, también de la Universidad de Columbia Británica. “Fue realmente emocionante”, dice Zhang. “Todas las mañanas, me despertaba para revisar mis experimentos y ver qué se estaba haciendo”.

Clune también se sorprendió. “Miren la explosión de creatividad a partir de tan pocas semillas”, dice. “Inventa el fútbol con dos porterías y un campo verde, tener que disparar a una serie de objetivos en movimiento como el croquet dinámico, la búsqueda y rescate en un edificio de varias habitaciones, el balón prisionero, limpiar un sitio de construcción y, mi favorito, ¡recoger los platos de las mesas en un restaurante lleno de gente! ¿No es genial?” OMNI-EPIC inventó más de 200 tareas antes de que el equipo detuviera el experimento debido a los costos computacionales.

Los investigadores señalan que OMNI-EPIC no tiene por qué limitarse a tareas físicas. En teoría, podría asignarse tareas de matemáticas o literatura. (Zhang creó recientemente un sistema de tutoría llamado CodeButter que, según ella, "emplea OMNI-EPIC para ofrecer desafíos de codificación adaptativos e infinitos, guiando a los usuarios en su recorrido de aprendizaje con IA"). El sistema también podría escribir código para simuladores que creen nuevos tipos de mundos, lo que daría lugar a agentes de IA con todo tipo de capacidades que podrían transferirse al mundo real. 

¿Deberíamos construir una IA abierta?

“Pensar en la intersección entre los LLM y el RL es muy emocionante”, dice Jakob Foerster, un científico informático de la Universidad de Oxford. Le gustan los artículos, pero señala que los sistemas no son realmente abiertos, porque utilizan LLM que han sido entrenados con datos humanos y ahora son estáticos, lo que limita su inventiva. Togelius dice que los LLM, que de alguna manera promedian todo lo que hay en Internet, son “supernormales”, pero agrega que “puede ser que la tendencia de los modelos de lenguaje hacia la mediocridad sea en realidad una ventaja en algunos de estos casos”, produciendo algo “novedoso pero no demasiado novedoso”.

Algunos investigadores, entre ellos Clune y Rocktäschel, consideran que la apertura es esencial para que la IA iguale o supere ampliamente la inteligencia humana. “Quizás un algoritmo abierto realmente bueno —quizás incluso OMNI-EPIC— con una biblioteca creciente de elementos que siga innovando y haciendo cosas nuevas para siempre se alejará de sus orígenes humanos”, dice Clune, “y navegará por aguas desconocidas y terminará produciendo ideas increíblemente interesantes y diversas que no están arraigadas en formas de pensar humanas”.

Sin embargo, muchos expertos se preocupan por lo que podría salir mal con una IA tan superinteligente, especialmente si no está alineada con los valores humanos. Por esa razón, “la apertura es una de las áreas más peligrosas del aprendizaje automático”, dice Lu. “Es como un equipo de científicos de primer nivel que intenta resolver un problema y no hay garantía de que se centre solo en las ideas seguras”.

Pero Foerster cree que el aprendizaje abierto podría en realidad aumentar la seguridad, creando “actores con diferentes intereses, manteniendo un equilibrio de poder”. En cualquier caso, todavía no hemos alcanzado la superinteligencia. Todavía estamos en el nivel de inventar nuevos videojuegos. 

Citas

A Ecoffet et al. Primero volver, luego explorar. Nature. Vol. 590, pág. 580, 24 de febrero de 2021. doi: 10.1038/s41586-020-03157-9.

C. Lu, S. Hu y Jlune. Go-Explore inteligente: de pie sobre los hombros de modelos de base gigantes. arXiv:2405.15143. 24 de mayo de 2024. doi: 10.48550/arXiv.2405.15143.

J. Zhang et al . OMNI: Apertura a través de modelos de nociones humanas de interés. arXiv:2306.01711. 2 de junio de 2023. doi: 10.48550/arXiv.2306.01711.

M. Faldor et al. OMNI-EPIC: Apertura a través de modelos de nociones humanas de interés con entornos programados en código. arXiv:2405.15568. 24 de mayo de 2024. doi: 10.48550/arXiv.2405.15568.

Autor

Autor
Imagen Science News

Science News

Durante casi un siglo, los periodistas de Science News han cubierto avances en ciencia, medicina y tecnología para el público en general, incluido el ensayo del "mono" de Scopes de 1925, el advenimiento de la era atómica en 1945, la carrera espacial y la revolución de la ingeniería genética, desde el descubrimiento del ADN hasta la tecnología actual de edición de genes. En apoyo de nuestra misión de servir al interés público al brindar una cobertura precisa e imparcial de noticias en ciencia, medicina y tecnología, seguimos estándares ampliamente reconocidos de periodismo desarrollados y adheridos por las principales organizaciones de noticias. Eso incluye ser honestos y transparentes en nuestro trabajo y en nuestras interacciones con fuentes y lectores.

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro