
Imagen de IA generada por ChatGPT
2025-12-19
Un “sandbox científico” permite a los investigadores explorar la evolución de los sistemas de visión
¿Por qué los humanos desarrollaron los ojos que tenemos hoy?
Si bien los científicos no pueden volver atrás en el tiempo para estudiar las presiones ambientales que dieron forma a la evolución de los diversos sistemas de visión que existen en la naturaleza, un nuevo marco computacional desarrollado por investigadores del MIT les permite explorar esta evolución en agentes de inteligencia artificial.
El marco que desarrollaron, en el que agentes de IA encarnados desarrollan ojos y aprenden a ver a lo largo de muchas generaciones, es como un "sandbox científico" que permite a los investigadores recrear diferentes árboles evolutivos. El usuario logra esto modificando la estructura del mundo y las tareas que realizan los agentes de IA, como encontrar comida o distinguir objetos.
Esto les permite estudiar por qué un animal puede haber desarrollado parches simples, sensibles a la luz, como ojos, mientras que otro tiene ojos complejos, tipo cámara.
Los experimentos de los investigadores con este marco muestran cómo las tareas impulsaron la evolución ocular en los agentes. Por ejemplo, descubrieron que las tareas de navegación a menudo condujeron a la evolución de ojos compuestos con muchas unidades individuales, como los ojos de insectos y crustáceos.
Por otro lado, si los agentes se centraban en la discriminación de objetos, era más probable que desarrollaran ojos tipo cámara con iris y retinas.
Este marco podría permitir a los científicos analizar preguntas hipotéticas sobre sistemas de visión que son difíciles de estudiar experimentalmente. También podría guiar el diseño de nuevos sensores y cámaras para robots, drones y dispositivos portátiles que equilibren el rendimiento con las limitaciones del mundo real, como la eficiencia energética y la viabilidad de fabricación.
“Si bien nunca podremos retroceder y comprender cada detalle de cómo se produjo la evolución, en este trabajo hemos creado un entorno que nos permite, en cierto sentido, recrear la evolución y explorar el entorno de todas estas maneras diferentes. Este método de hacer ciencia abre la puerta a muchas posibilidades”, afirma Kushagra Tiwary, estudiante de posgrado del MIT Media Lab y coautor principal de un artículo sobre esta investigación.
A él se unen en el artículo el coautor principal y compañero estudiante de posgrado Aaron Young; el estudiante de posgrado Tzofi Klinghoffer; el ex posdoctorado Akshat Dave, quien ahora es profesor asistente en la Universidad de Stony Brook; Tomaso Poggio, el Profesor Eugene McDermott en el Departamento de Ciencias Cerebrales y Cognitivas, investigador en el Instituto McGovern y codirector del Centro para Cerebros, Mentes y Máquinas; los coautores principales Brian Cheung, un posdoctorado en el Centro para Cerebros, Mentes y Máquinas y un profesor asistente entrante en la Universidad de California en San Francisco; y Ramesh Raskar, profesor asociado de artes y ciencias de los medios y líder del Camera Culture Group en el MIT; así como otros en la Universidad de Rice y la Universidad de Lund. La investigación aparece hoy en Science Advances.
Construyendo un arenero científico
El artículo comenzó como una conversación entre los investigadores sobre el descubrimiento de nuevos sistemas de visión que podrían ser útiles en diferentes campos, como la robótica. Para poner a prueba sus preguntas hipotéticas, los investigadores decidieron utilizar la IA para explorar las múltiples posibilidades evolutivas.
“Las preguntas hipotéticas me inspiraron a estudiar ciencias durante mi infancia. Con la IA, tenemos una oportunidad única de crear estos agentes encarnados que nos permiten plantear preguntas que normalmente serían imposibles de responder”, afirma Tiwary.
Para construir esta caja de arena evolutiva, los investigadores tomaron todos los elementos de una cámara, como los sensores, lentes, aperturas y procesadores, y los convirtieron en parámetros que un agente de IA encarnado pudiera aprender.
Utilizaron esos bloques de construcción como punto de partida para un mecanismo de aprendizaje algorítmico que un agente utilizaría a medida que desarrollara ojos con el tiempo.
“No pudimos simular el universo entero, átomo por átomo. Fue un desafío determinar qué ingredientes necesitábamos, cuáles no, y cómo distribuir los recursos entre esos diferentes elementos”, afirma Cheung.
En su marco, este algoritmo evolutivo puede elegir qué elementos evolucionar en función de las limitaciones del entorno y la tarea del agente.
Cada entorno tiene una tarea específica, como navegación, identificación de alimento o rastreo de presas, diseñada para imitar las tareas visuales reales que los animales deben superar para sobrevivir. Los agentes comienzan con un único fotorreceptor que observa el mundo y un modelo de red neuronal asociado que procesa la información visual.
Luego, a lo largo de la vida útil de cada agente, este se entrena mediante aprendizaje por refuerzo, una técnica de prueba y error en la que se le recompensa por cumplir el objetivo de su tarea. El entorno también incorpora restricciones, como un número determinado de píxeles para los sensores visuales del agente.
“Estas limitaciones impulsan el proceso de diseño, de la misma manera que tenemos limitaciones físicas en nuestro mundo, como la física de la luz, que han impulsado el diseño de nuestros propios ojos”, dice Tiwary.
A lo largo de muchas generaciones, los agentes desarrollan diferentes elementos de sistemas de visión que maximizan las recompensas.
Su marco utiliza un mecanismo de codificación genética para imitar computacionalmente la evolución, donde los genes individuales mutan para controlar el desarrollo de un agente.
Por ejemplo, los genes morfológicos capturan cómo el agente ve el entorno y controlan la ubicación de los ojos; los genes ópticos determinan cómo el ojo interactúa con la luz y dictan el número de fotorreceptores; y los genes neuronales controlan la capacidad de aprendizaje de los agentes.
Prueba de hipótesis
Cuando los investigadores realizaron experimentos en este marco, descubrieron que las tareas tenían una gran influencia en los sistemas de visión que desarrollaban los agentes.
Por ejemplo, los agentes que se centraron en tareas de navegación desarrollaron ojos diseñados para maximizar la conciencia espacial a través de detección de baja resolución, mientras que los agentes encargados de detectar objetos desarrollaron ojos centrados más en la agudeza frontal que en la visión periférica.
Otro experimento indicó que un cerebro más grande no siempre es mejor para procesar la información visual. Solo una cierta cantidad de información visual puede ingresar al sistema a la vez, dependiendo de limitaciones físicas como la cantidad de fotorreceptores en los ojos.
“En algún momento, un cerebro más grande no ayuda en absoluto a los agentes, y en la naturaleza eso sería un desperdicio de recursos”, afirma Cheung.
En el futuro, los investigadores quieren usar este simulador para explorar los mejores sistemas de visión para aplicaciones específicas, lo que podría ayudar a los científicos a desarrollar sensores y cámaras para tareas específicas. También quieren integrar LLM en su marco de trabajo para facilitar a los usuarios la formulación de preguntas hipotéticas y el estudio de nuevas posibilidades.
“Existe un beneficio real al plantear preguntas de forma más imaginativa. Espero que esto inspire a otros a crear marcos más amplios, donde, en lugar de centrarse en preguntas limitadas que abarcan un área específica, busquen respuestas con un alcance mucho más amplio”, afirma Cheung.
Este trabajo fue financiado, en parte, por el Centro de Cerebros, Mentes y Máquinas y el programa Matemáticas para el Descubrimiento de Algoritmos y Arquitecturas (DIAL) de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA).
Autor

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...