
Imagen de IA generada por ChatGPT
2026-06-05
Enseñando a los agentes de IA a hacer mejores preguntas jugando al “Batalla Naval”
En 2026, el entusiasmo por los agentes de inteligencia artificial es más fuerte que nunca. Estos programas semiautónomos pueden “pensar” y ejecutar tareas bien definidas en áreas como atención al cliente y desarrollo de software, normalmente usando modelos de lenguaje (LMs, por sus siglas en inglés). Pero campos como el diagnóstico médico y el descubrimiento científico requieren que estos agentes indaguen sobre una gran variedad de soluciones en entornos inciertos, lo cual representa un reto para los modelos de lenguaje.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y la Facultad de Ingeniería y Ciencias Aplicadas (SEAS) de la Universidad de Harvard examinaron más a fondo los modelos de lenguaje para entender sus principales problemas en contextos de alto riesgo. Su prueba: “Batalla Naval”, un clásico juego de adivinanzas que ha ayudado a científicos cognitivos a estudiar cómo los humanos buscan información.
Los académicos de CSAIL y SEAS añadieron un giro al reformular el juego alrededor de hacer y responder preguntas en lenguaje natural. En su juego “Batalla Naval Colaborativa”, un participante es el “capitán”, quien pregunta por la ubicación de barcos ocultos, mientras su compañero hace de “observador” respondiendo a dichas preguntas en tiempo real.
Primero, los investigadores hicieron que más de 40 humanos jugaran juntos, recopilando sus preguntas y respuestas de sí/no para construir el conjunto de datos “BattleshipQA”. Estos resultados sirvieron como punto de comparación cuando el equipo probó modelos de lenguaje de última generación (como GPT-5) y modelos más pequeños (como Llama 4 Scout) en su juego. Sin entrenar previamente a los modelos, observaron que los modelos de lenguaje más avanzados pueden superar a los humanos en “Batalla Naval”, es decir, completar el juego en menos turnos, pero los sistemas más pequeños son mucho menos racionales.
El principal problema era que muchos modelos simplemente no son buenos generando preguntas útiles. Para lograr que los modelos de lenguaje indagaran de maneras que revelaran más información sobre los barcos ocultos, los investigadores dotaron a cada modelo de una estrategia de inferencia de Monte Carlo, que mide cuidadosamente la probabilidad de que cada opción sea correcta tras cada respuesta. El resultado: modelos de IA capaces de superar a jugadores regulares de “Batalla Naval”, independientemente de su tamaño.
Quizá el resultado más sorprendente fueron los avances de Llama 4 Scout. Siendo un modelo de lenguaje relativamente pequeño, solo superó a humanos en un 8 por ciento de las ocasiones. Pero afinando su estrategia de inferencia, el modelo alcanzó una tasa de victorias del 82 por ciento frente a humanos en “Batalla Naval”. Este estilo cuidadoso y eficiente de hacer preguntas también permitió que el modelo superara a un modelo de vanguardia (GPT-5), operando a cerca del 1 por ciento de su costo.
Además de esta mejora, los investigadores acortaron la distancia entre humanos y modelos de lenguaje al responder preguntas. Aunque GPT-5 era un observador fiable que ayudaba a los modelos a terminar el juego más rápido, los sistemas más pequeños solían dar respuestas equivocadas sobre la ubicación de los barcos ocultos. Los modelos aumentaron su precisión en un 15 por ciento en promedio cuando comenzaron a convertir preguntas en código que les indicaba explícitamente cómo verificar sus respuestas (por ejemplo, haciendo que el modelo realice una búsqueda rápida en un área al preguntarle si hay un barco presente).
“Los modelos lingüísticos actuales están principalmente optimizados para responder consultas complejas, pero no está tan claro si aprenden a formular buenas preguntas por sí mismos”, dice Gabriel Grand, estudiante de doctorado en MIT y miembro de CSAIL, autor principal de un artículo sobre el trabajo. “Nuestro estudio muestra que hacer preguntas informativas depende de la capacidad de predecir y simular el mundo. Observamos que cuando damos a los agentes acceso a un ‘modelo del mundo’, formulan mejores preguntas y hacen descubrimientos de manera más eficiente.”
Un mar de cambios para los modelos de lenguaje
El primer enfoque del equipo fue lograr que los modelos de lenguaje hicieran mejores preguntas. Al implementar estrategias de inferencia de Monte Carlo, los modelos evalúan sus posibles conjeturas como partículas individuales. Aquellas que parecen más válidas tras cada respuesta del observador reciben mayor peso, como si fueran bolas de juego que se inflan o desinflan en cada turno. Con este enfoque más calculado y adaptativo, el capitán podía realizar consultas que extraían mucha más información del observador.
Luego, los científicos recurrieron al popular lenguaje de programación Python para ayudar a los observadores de IA. Cada pregunta que hacía el capitán se convertía automáticamente en un comando codificado. Por ejemplo, una pregunta como “¿Hay un barco en la columna uno que ocupe dos filas?” se transforma en instrucciones para que el modelo observador busque esa área y evalúe la extensión de la pieza digital del juego. Al proporcionar instrucciones claras en un lenguaje que entiende especialmente bien, cada sistema dio respuestas correctas con mucha más frecuencia. El sistema ligero GPT-4o-mini aumentó su rendimiento casi un 30 por ciento, y hasta el modelo grande Claude 4 Opus mejoró en cerca de ocho puntos.
“El campo ha cosechado grandes logros con las estrategias de ‘auto-formalización’, en las que los modelos generan código para verificar sus soluciones”, comenta Jacob Andreas, profesor asociado de ingeniería eléctrica y ciencias de la computación del MIT e investigador principal en CSAIL. “Lo que más me entusiasma de este trabajo es la posibilidad de usar estas técnicas para generar mejores soluciones desde el inicio, mejorando las capacidades de exploración y recopilación de información de los modelos de lenguaje. Estamos emocionados de ampliar este trabajo de los dominios científicos hacia aplicaciones como la programación y la resolución matemática de problemas.”
Ahora juguemos otra cosa
¿Pero cómo funcionaría este enfoque en otros juegos de mesa? El equipo probó sus modelos de lenguaje adaptados en “¿Quién es quién?”, donde modelos grandes y pequeños redujeron hábilmente 100 opciones hasta adivinar correctamente el personaje oculto. Llama 4 Scout tuvo éxito el 30 por ciento de las veces, pero tras las mejoras de Grand y sus colegas, completó la tarea en más del 72 por ciento de sus intentos. Por su parte, GPT-4o pasó del 62 al 90 por ciento. GPT-5 fue el observador en cada partida para asegurar que las preguntas recibieran respuestas lo más precisas posible.
Aunque los modelos de lenguaje han mostrado avances prometedores en ambos juegos, todavía hay margen de mejora. Por ejemplo, los modelos continúan teniendo dificultades para responder preguntas complejas en comparación con los humanos. Valerio Pepe, investigador de OpenAI, reciente graduado de Harvard y coautor, añade que “GPT-5 puede superar al jugador promedio de ‘Batalla Naval’ y mejora un poco con nuestros métodos. Sin embargo, los jugadores expertos siguen siendo difíciles de vencer para todos los modelos, a diferencia del ajedrez, donde ni siquiera los mejores humanos pueden ganar a los sistemas de IA.”
Los hallazgos de los investigadores muestran que los agentes de IA tienen un potencial sin explotar para el descubrimiento tipo “aguja en un pajar”: explorar un vasto espacio de opciones para encontrar una solución rara a desafíos científicos. Aunque unas mejores habilidades de búsqueda de información los harían excelentes asistentes de investigación —por ejemplo, al identificar la estructura molecular de un compuesto—, los autores advierten que “Batalla Naval Colaborativa” es un entorno de prueba relativamente simple. Les gustaría probar estos modelos de lenguaje en escenarios más complejos, donde deban considerar muchas más opciones.
Grand también planea hacer que humanos y modelos de IA colaboren para estudiar si trabajan mejor juntos. Los modelos podrían además beneficiarse de un ajuste fino en simulaciones de juegos, y con mayor capacidad de cómputo, los modelos tendrían capacidades de inferencia más avanzadas para predecir cómo evolucionará una partida. “A medida que los sistemas de IA se vuelven más agentes, los problemas más difíciles resultan ser sociales: mantener un terreno común, resolver malentendidos y adaptarse a socios diferentes con el tiempo”, señala Robert Hawkins, profesor adjunto de lingüística en la Universidad de Stanford, quien no participó en el artículo. “Este trabajo recoge elegantemente estos fenómenos en un entorno colaborativo controlado, y da argumentos convincentes de que el verdadero cuello de botella para los agentes de IA no es solo calcular preguntas óptimas, sino el razonamiento pragmático necesario para sacar el mayor partido de sus respuestas.”
Grand y Pepe escribieron el artículo junto a dos investigadores principales de CSAIL: el profesor asociado del MIT Jacob Andreas y el profesor del MIT Joshua Tenenbaum. Su trabajo fue apoyado en parte por el MIT Siegel Family Quest for Intelligence, el MIT-IBM Watson AI Lab, la iniciativa FinTechAI@CSAIL, una beca de investigación Sloan, Intel, la Oficina de Investigación Científica de la Fuerza Aérea, la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA), la Oficina de Investigación Naval y la Fundación Nacional de Ciencia. Presentaron su trabajo en abril como ponencia oral en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR).

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...