Encuesta sobre generación de datos sintéticos, métodos de evaluación y GANs
Autores: Figueira, Alvaro; Vaz, Bruno
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Encuesta sobre generación de datos sintéticos, métodos de evaluación y GANs
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos sintéticos
Redes generativas adversarias
Modelos de aprendizaje automático
Modelos generativos profundos
Estado del arte
Arquitecturas GAN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Los datos sintéticos consisten en datos generados artificialmente. Cuando los datos son escasos o de mala calidad, se puede utilizar datos sintéticos, por ejemplo, para mejorar el rendimiento de los modelos de aprendizaje automático. Las redes generativas adversarias (GANs) son modelos generativos profundos de última generación que pueden generar muestras sintéticas novedosas que siguen la distribución de datos subyacente del conjunto de datos original. Se han escrito reseñas sobre la generación de datos sintéticos y sobre GANs. Sin embargo, hasta donde sabemos, ninguna en la literatura relevante ha combinado explícitamente estos dos temas. Esta encuesta tiene como objetivo llenar este vacío y proporcionar material útil a los nuevos investigadores en este campo. Es decir, nuestro objetivo es proporcionar una encuesta que combine la generación de datos sintéticos y GANs, y que pueda servir como un buen y sólido punto de partida para los nuevos investigadores en el campo, de modo que tengan una visión general de las contribuciones clave y referencias útiles. Hemos realizado una revisión del estado del arte consultando cuatro bases de datos principales: Web of Sciences (WoS), Scopus, IEEE Xplore y ACM Digital Library. Esto nos permitió obtener información sobre los autores más relevantes, las revistas científicas más relevantes en el área, los artículos más citados, las áreas de investigación más significativas, las instituciones más importantes y las arquitecturas de GAN más relevantes. Los GANs fueron revisados minuciosamente, así como sus problemas de entrenamiento más comunes, sus avances más importantes y un enfoque en las arquitecturas de GAN para datos tabulares. Además, también se expresan los principales algoritmos para generar datos sintéticos, sus aplicaciones y nuestras opiniones sobre estos métodos. Finalmente, revisamos las principales técnicas para evaluar la calidad de los datos sintéticos (especialmente datos tabulares) y proporcionamos una visión general esquemática de la información presentada en este documento.
Descripción
Los datos sintéticos consisten en datos generados artificialmente. Cuando los datos son escasos o de mala calidad, se puede utilizar datos sintéticos, por ejemplo, para mejorar el rendimiento de los modelos de aprendizaje automático. Las redes generativas adversarias (GANs) son modelos generativos profundos de última generación que pueden generar muestras sintéticas novedosas que siguen la distribución de datos subyacente del conjunto de datos original. Se han escrito reseñas sobre la generación de datos sintéticos y sobre GANs. Sin embargo, hasta donde sabemos, ninguna en la literatura relevante ha combinado explícitamente estos dos temas. Esta encuesta tiene como objetivo llenar este vacío y proporcionar material útil a los nuevos investigadores en este campo. Es decir, nuestro objetivo es proporcionar una encuesta que combine la generación de datos sintéticos y GANs, y que pueda servir como un buen y sólido punto de partida para los nuevos investigadores en el campo, de modo que tengan una visión general de las contribuciones clave y referencias útiles. Hemos realizado una revisión del estado del arte consultando cuatro bases de datos principales: Web of Sciences (WoS), Scopus, IEEE Xplore y ACM Digital Library. Esto nos permitió obtener información sobre los autores más relevantes, las revistas científicas más relevantes en el área, los artículos más citados, las áreas de investigación más significativas, las instituciones más importantes y las arquitecturas de GAN más relevantes. Los GANs fueron revisados minuciosamente, así como sus problemas de entrenamiento más comunes, sus avances más importantes y un enfoque en las arquitecturas de GAN para datos tabulares. Además, también se expresan los principales algoritmos para generar datos sintéticos, sus aplicaciones y nuestras opiniones sobre estos métodos. Finalmente, revisamos las principales técnicas para evaluar la calidad de los datos sintéticos (especialmente datos tabulares) y proporcionamos una visión general esquemática de la información presentada en este documento.