
Credits:Image: Christine Daniloff, MIT
2021-05-20
Mejora de la organización de los vídeos
En cualquier momento, se publican miles de vídeos nuevos en sitios como YouTube, TikTok e Instagram. Un número cada vez mayor de esos vídeos se graban y se transmiten en directo. Pero las empresas tecnológicas y de medios de comunicación siguen luchando por entender lo que ocurre en todo ese contenido.
Ahora, Netra, fundada por un ex alumno del MIT, utiliza la inteligencia artificial para mejorar el análisis de vídeos a escala. El sistema de la empresa puede identificar actividades, objetos, emociones, ubicaciones, etc., para organizar y contextualizar los vídeos de nuevas maneras.
Las empresas utilizan la solución de Netra para agrupar contenidos similares en segmentos de noticias o de películas destacadas, señalar la desnudez y la violencia y mejorar la colocación de los anuncios. En el ámbito de la publicidad, Netra ayuda a garantizar que los vídeos se emparejen con los anuncios pertinentes para que las marcas puedan dejar de seguir a personas concretas, lo que ha suscitado problemas de privacidad.
"El sector en su conjunto se está orientando hacia la publicidad basada en el contenido, o lo que llaman publicidad por afinidad, y se está alejando del seguimiento basado en cookies y píxeles, que siempre ha sido un poco espeluznante", afirma el cofundador y director de tecnología de Netra, Shashi Kant SM ´06.
Netra también cree que está mejorando la capacidad de búsqueda de los contenidos de vídeo. Una vez que los vídeos son procesados por el sistema de Netra, los usuarios pueden iniciar una búsqueda con una palabra clave. A partir de ahí, pueden hacer clic en los resultados para ver contenidos similares y encontrar eventos cada vez más específicos.
Por ejemplo, el sistema de Netra puede procesar los vídeos de una temporada de béisbol y ayudar a los usuarios a encontrar todos los singles. Al hacer clic en determinadas jugadas para ver más similares, también pueden encontrar todos los sencillos que casi fueron outs y que llevaron a los aficionados a abuchear airadamente.
"El vídeo es, con diferencia, la mayor fuente de información actual", afirma Kant. "Empequeñece al texto por órdenes de magnitud en cuanto a riqueza de información y tamaño, y sin embargo nadie lo ha tocado con la búsqueda. Es el más blanco de los espacios en blanco".
Persiguiendo una visión
El pionero de Internet y profesor del MIT, Sir Tim Berners-Lee, lleva mucho tiempo trabajando para mejorar la capacidad de las máquinas de dar sentido a los datos en Internet. Kant investigó con Berners-Lee cuando era estudiante de posgrado y se inspiró en su visión para mejorar el modo en que las máquinas almacenan y utilizan la información.
"El santo grial para mí es un nuevo paradigma en la recuperación de información", dice Kant. "Creo que la búsqueda en la web sigue siendo 1.0. Incluso Google es 1.0. Esa ha sido la visión de la iniciativa de la web semántica de Sir Tim Berners-Lee y eso es lo que he sacado de esa experiencia".
Kant también formó parte del equipo ganador del concurso de emprendedores del MIT de 100.000 dólares (los 50.000 dólares del MIT de entonces). Ayudó a escribir el código informático de una solución llamada Active Joint Brace, que era un dispositivo ortopédico electromecánico para personas con discapacidad.
Tras graduarse en 2006, Kant creó una empresa que utilizaba la IA en su solución, llamada Cognika. La IA todavía tenía una mala reputación por estar sobrevalorada, así que Kant utilizaba términos como computación cognitiva cuando presentaba su empresa a inversores y clientes.
Kant fundó Netra en 2013 para utilizar la IA en el análisis de vídeos. Hoy en día tiene que enfrentarse al extremo opuesto del espectro de la publicidad, con tantas empresas que afirman utilizar la IA en sus soluciones.
Netra trata de cortar el bombo con demostraciones de su sistema. Netra puede analizar rápidamente los vídeos y organizar el contenido en función de lo que ocurre en los distintos clips, incluyendo escenas en las que las personas hacen cosas similares, expresan emociones parecidas, utilizan productos similares, etc. El análisis de Netra genera metadatos para las distintas escenas, pero Kant afirma que el sistema de Netra ofrece mucho más que el etiquetado de palabras clave.
"Lo que trabajamos son incrustaciones", explica Kant, refiriéndose a cómo su sistema clasifica el contenido. Si hay una escena en la que alguien batea un jonrón, tiene una firma determinada, y generamos una incrustación para ella". Una incrustación es una secuencia de números, o un "vector", que capta la esencia de un contenido. Las etiquetas son sólo representaciones legibles para el ser humano. Así, entrenaremos un modelo que detecte todos los jonrones, pero debajo de la cubierta hay una red neuronal, y está creando una incrustación de ese vídeo, y eso diferencia la escena de otras maneras de un out o un walk".
Al definir las relaciones entre los distintos clips, el sistema de Netra permite a los clientes organizar y buscar sus contenidos de nuevas maneras. Las empresas de comunicación pueden determinar los momentos más emocionantes de los eventos deportivos en función de las emociones de los aficionados. También pueden agrupar los contenidos por temas, lugares o por si los clips incluyen o no contenido sensible o perturbador.
Kant cree que el motor de IA de Netra es un paso adelante para dar a los consumidores más control sobre sus datos, una idea que Berners-Lee defendió durante mucho tiempo.
"No es la aplicación de mi trabajo en el CSAIL, pero diría que las ideas conceptuales que perseguía en el CSAIL se reflejan en la solución de Netra", afirma Kant.
Transformar la forma de almacenar la información
En la actualidad, Netra cuenta con algunos de los mayores medios de comunicación y empresas de publicidad del país como clientes. Kant cree que el sistema de Netra podría algún día ayudar a cualquiera a buscar y organizar el creciente océano de contenidos de vídeo en Internet. Para ello, considera que la solución de Netra seguirá evolucionando.
"La búsqueda no ha cambiado mucho desde que se inventó para la web 1.0", dice Kant. "Ahora mismo hay mucha búsqueda basada en enlaces. En mi opinión, los enlaces están obsoletos. No quieres visitar diferentes documentos. Quieres información de esos documentos agregada en algo contextual y personalizable, que incluya justo la información que necesitas."
Kant cree que esa contextualización mejoraría mucho la forma de organizar y compartir la información en Internet.
"Se trata de confiar cada vez menos en las palabras clave y más en los ejemplos", explica Kant. "Por ejemplo, en este vídeo, si Shashi hace una declaración, ¿es porque es un chiflado o hay algo más? Imagina un sistema que pudiera decir: Este otro científico dijo algo similar para validar esa afirmación y este científico respondió de forma similar a esa pregunta. Para mí, ese tipo de cosas son el futuro de la recuperación de información, y esa es la pasión de mi vida. Por eso vine al MIT. Por eso he pasado una década y media de mi vida luchando en esta batalla de la IA, y eso es lo que seguiré haciendo."

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...