Impacto en el rendimiento del modelo de inferencia para tareas de ML utilizando datos de entrenamiento del mundo real y datos de entrenamiento sintéticos de GANs
Autores: Faltings, Ulrike; Bettinger, Tobias; Barth, Swen; Schäfer, Michael
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Impacto en el rendimiento del modelo de inferencia para tareas de ML utilizando datos de entrenamiento del mundo real y datos de entrenamiento sintéticos de GANs
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Redes generativas antagónicas
Datos de entrenamiento sintéticos
Aprendizaje profundo
Aplicaciones industriales
Aprendizaje automático
Visión por computadora
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La recolección y etiquetado de datos de entrenamiento bien equilibrados suelen ser muy difíciles y desafiantes en condiciones reales. Además de los métodos de modelado clásicos, las Redes Generativas Antagónicas (GANs) ofrecen una poderosa posibilidad de generar datos de entrenamiento sintéticos. En este documento, evaluamos el uso híbrido de datos de entrenamiento reales y sintéticos generados en diferentes fracciones y el efecto en el rendimiento del modelo. Encontramos que un uso de hasta el 75% de datos de entrenamiento sintéticos puede compensar tanto la anotación manual que consume tiempo como la que es costosa, mientras que el rendimiento del modelo en nuestro caso de uso de Aprendizaje Profundo (DL) se mantiene en el mismo rango en comparación con una participación del 100% en imágenes reales anotadas a mano. Al utilizar datos de entrenamiento sintéticos específicamente diseñados para inducir un conjunto de datos equilibrado, se puede tener un cuidado especial con respecto a eventos que ocurren solo en raras ocasiones y se puede ejecutar una aplicación industrial rápida de modelos de ML sin demasiada demora, lo que los hace viables y económicamente atractivos para un amplio espectro de aplicaciones industriales en procesos y manufactura. Por lo tanto, el principal resultado de este documento es que nuestra metodología puede ayudar a aprovechar la implementación de muchas aplicaciones industriales diferentes de Aprendizaje Automático y Visión por Computadora al hacerlas económicamente sostenibles. Se puede concluir que una multitud de casos de uso industriales de ML que requieren grandes y equilibrados datos de entrenamiento que contengan toda la información relevante para el modelo objetivo pueden resolverse en el futuro siguiendo los hallazgos que se presentan en este estudio.
Descripción
La recolección y etiquetado de datos de entrenamiento bien equilibrados suelen ser muy difíciles y desafiantes en condiciones reales. Además de los métodos de modelado clásicos, las Redes Generativas Antagónicas (GANs) ofrecen una poderosa posibilidad de generar datos de entrenamiento sintéticos. En este documento, evaluamos el uso híbrido de datos de entrenamiento reales y sintéticos generados en diferentes fracciones y el efecto en el rendimiento del modelo. Encontramos que un uso de hasta el 75% de datos de entrenamiento sintéticos puede compensar tanto la anotación manual que consume tiempo como la que es costosa, mientras que el rendimiento del modelo en nuestro caso de uso de Aprendizaje Profundo (DL) se mantiene en el mismo rango en comparación con una participación del 100% en imágenes reales anotadas a mano. Al utilizar datos de entrenamiento sintéticos específicamente diseñados para inducir un conjunto de datos equilibrado, se puede tener un cuidado especial con respecto a eventos que ocurren solo en raras ocasiones y se puede ejecutar una aplicación industrial rápida de modelos de ML sin demasiada demora, lo que los hace viables y económicamente atractivos para un amplio espectro de aplicaciones industriales en procesos y manufactura. Por lo tanto, el principal resultado de este documento es que nuestra metodología puede ayudar a aprovechar la implementación de muchas aplicaciones industriales diferentes de Aprendizaje Automático y Visión por Computadora al hacerlas económicamente sostenibles. Se puede concluir que una multitud de casos de uso industriales de ML que requieren grandes y equilibrados datos de entrenamiento que contengan toda la información relevante para el modelo objetivo pueden resolverse en el futuro siguiendo los hallazgos que se presentan en este estudio.