logo móvil
Contáctanos
Portada

Imagen. / MIT

2022-11-03

En el aprendizaje automático, los datos sintéticos pueden ofrecer mejoras de rendimiento reales


Enseñar a una máquina a reconocer las acciones humanas tiene muchas aplicaciones potenciales, como la detección automática de trabajadores que se caen en un sitio de construcción o permitir que un robot doméstico inteligente interprete los gestos de un usuario.

Para hacer esto, los investigadores entrenan modelos de aprendizaje automático utilizando grandes conjuntos de datos de videoclips que muestran a humanos realizando acciones. Sin embargo, no solo es costoso y laborioso recopilar y etiquetar millones o miles de millones de videos, sino que los clips a menudo contienen información confidencial, como rostros de personas o números de matrículas. El uso de estos videos también podría violar las leyes de protección de datos o derechos de autor. Y esto supone que los datos de video están disponibles públicamente en primer lugar: muchos conjuntos de datos son propiedad de empresas y no son de uso gratuito.

Entonces, los investigadores están recurriendo a conjuntos de datos sintéticos. Estos están hechos por una computadora que usa modelos 3D de escenas, objetos y humanos para producir rápidamente muchos clips variados de acciones específicas, sin los posibles problemas de derechos de autor o preocupaciones éticas que vienen con los datos reales.

Pero, ¿los datos sintéticos son tan “buenos” como los datos reales? ¿Qué tan bien se desempeña un modelo entrenado con estos datos cuando se le pide que clasifique acciones humanas reales? Un equipo de investigadores del MIT, el MIT-IBM Watson AI Lab y la Universidad de Boston intentaron responder a esta pregunta. Construyeron un conjunto de datos sintéticos de 150 000 videoclips que capturaron una amplia gama de acciones humanas, que usaron para entrenar modelos de aprendizaje automático. Luego, les mostraron a estos modelos seis conjuntos de datos de videos del mundo real para ver qué tan bien podían aprender a reconocer acciones en esos clips.

Los investigadores descubrieron que los modelos entrenados sintéticamente funcionaron incluso mejor que los modelos entrenados con datos reales para videos que tienen menos objetos de fondo.

Este trabajo podría ayudar a los investigadores a usar conjuntos de datos sintéticos de tal manera que los modelos logren una mayor precisión en tareas del mundo real. También podría ayudar a los científicos a identificar qué aplicaciones de aprendizaje automático podrían ser las más adecuadas para el entrenamiento con datos sintéticos, en un esfuerzo por mitigar algunas de las preocupaciones éticas, de privacidad y de derechos de autor del uso de conjuntos de datos reales.

“El objetivo final de nuestra investigación es reemplazar el preentrenamiento de datos reales con el preentrenamiento de datos sintéticos. Crear una acción en datos sintéticos tiene un costo, pero una vez que se hace, puedes generar una cantidad ilimitada de imágenes o videos cambiando la pose, la iluminación, etc. Esa es la belleza de los datos sintéticos”, dice Rogerio. Feris, científico principal y gerente del MIT-IBM Watson AI Lab, y coautor de un artículo que detalla esta investigación.

El artículo está escrito por el autor principal Yo-whan "John" Kim ´22; Aude Oliva, directora de participación estratégica de la industria en el Schwarzman College of Computing del MIT, directora del MIT-IBM Watson AI Lab del MIT y científica investigadora sénior en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y otros siete. La investigación será presentada en la Conferencia sobre Sistemas de Procesamiento de Información Neural.   

Creación de un conjunto de datos sintético

Los investigadores comenzaron compilando un nuevo conjunto de datos utilizando tres conjuntos de datos disponibles públicamente de videoclips sintéticos que capturaron acciones humanas. Su conjunto de datos, llamado Preentrenamiento y Transferencia de Acción Sintética (SynAPT), contenía 150 categorías de acción, con 1000 videoclips por categoría.

Seleccionaron tantas categorías de acción como fuera posible, como personas saludando o cayendo al suelo, según la disponibilidad de clips que contenían datos de video limpios.

Una vez que se preparó el conjunto de datos, lo usaron para entrenar previamente tres modelos de aprendizaje automático para reconocer las acciones. El preentrenamiento implica entrenar a un modelo para una tarea a fin de darle una ventaja para aprender otras tareas. Inspirado en la forma en que aprenden las personas (reutilizamos el conocimiento antiguo cuando aprendemos algo nuevo), el modelo preentrenado puede usar los parámetros que ya ha aprendido para ayudarlo a aprender una nueva tarea con un nuevo conjunto de datos de manera más rápida y efectiva.

Probaron los modelos preentrenados utilizando seis conjuntos de datos de clips de video reales, cada uno de los cuales capturaba clases de acciones que eran diferentes a las de los datos de entrenamiento.

Los investigadores se sorprendieron al ver que los tres modelos sintéticos superaron a los modelos entrenados con videoclips reales en cuatro de los seis conjuntos de datos. Su precisión fue más alta para los conjuntos de datos que contenían videoclips con "sesgo bajo de escena-objeto".

El bajo sesgo de escena-objeto significa que el modelo no puede reconocer la acción al mirar el fondo u otros objetos en la escena; debe enfocarse en la acción misma. Por ejemplo, si el modelo tiene la tarea de clasificar las poses de buceo en videoclips de personas que se sumergen en una piscina, no puede identificar una pose mirando el agua o los azulejos de la pared. Debe centrarse en el movimiento y la posición de la persona para clasificar la acción.

“En videos con un bajo sesgo de escena-objeto, la dinámica temporal de las acciones es más importante que la apariencia de los objetos o el fondo, y eso parece estar bien capturado con datos sintéticos”, dice Feris.

“El alto sesgo del objeto de la escena en realidad puede actuar como un obstáculo. El modelo podría clasificar erróneamente una acción al mirar un objeto, no la acción en sí. Puede confundir al modelo”, explica Kim.

Impulsar el rendimiento

A partir de estos resultados, los investigadores quieren incluir más clases de acción y plataformas de video sintético adicionales en el trabajo futuro, creando eventualmente un catálogo de modelos que han sido entrenados previamente utilizando datos sintéticos, dice el coautor Rameswar Panda, miembro del personal de investigación del MIT. -Laboratorio de IA de IBM Watson.

“Queremos construir modelos que tengan un rendimiento muy similar o incluso mejor que los modelos existentes en la literatura, pero sin estar limitados por ninguno de esos sesgos o preocupaciones de seguridad”, agrega.

También quieren combinar su trabajo con la investigación que busca generar videos sintéticos más precisos y realistas, lo que podría mejorar el rendimiento de los modelos, dice SouYoung Jin, coautor y postdoctorado de CSAIL. También está interesada en explorar cómo los modelos pueden aprender de manera diferente cuando se entrenan con datos sintéticos.

“Utilizamos conjuntos de datos sintéticos para evitar problemas de privacidad o sesgos contextuales o sociales, pero ¿qué aprende realmente el modelo? ¿Aprende algo que es imparcial?” ella dice.

Ahora que han demostrado este potencial de uso para videos sintéticos, esperan que otros investigadores se basen en su trabajo.

“A pesar de que obtener datos sintéticos bien anotados tiene un costo menor, actualmente no tenemos un conjunto de datos con la escala para competir con los conjuntos de datos anotados más grandes con videos reales. Al discutir los diferentes costos y preocupaciones con videos reales y mostrar la eficacia de los datos sintéticos, esperamos motivar los esfuerzos en esta dirección”, agrega el coautor Samarth Mishra, estudiante de posgrado en la Universidad de Boston (BU).

Los coautores adicionales incluyen a Hilde Kuehne, profesora de ciencias de la computación en la Universidad Goethe de Alemania y profesora asociada en el MIT-IBM Watson AI Lab; Leonid Karlinsky, miembro del personal de investigación del MIT-IBM Watson AI Lab; Venkatesh Saligrama, profesor del Departamento de Ingeniería Eléctrica e Informática de la BU; y Kate Saenko, profesora asociada en el Departamento de Ciencias de la Computación en BU y profesora consultora en MIT-IBM Watson AI Lab.

Esta investigación fue apoyada por la Agencia de Proyectos de Investigación Avanzada de Defensa LwLL, así como por el MIT-IBM Watson AI Lab y sus empresas miembro, Nexplore y Woodside.

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro