Asids: un método robusto de síntesis de datos para generar muestras sintéticas óptimas
Autores: Du, Yukun; Cai, Yitao; Jin, Xiao; Wang, Hongxia; Li, Yao; Lu, Min
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Asids: un método robusto de síntesis de datos para generar muestras sintéticas óptimas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Métodos de síntesis de datos
Desequilibrio en el conjunto de datos
Anonimización de datos
Tamaño de muestra
Interpolación de Subespacios Adaptativos para Síntesis de Datos (ASIDS)
Espacio de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
La mayoría de los métodos de síntesis de datos existentes están diseñados para abordar problemas con el desequilibrio de conjuntos de datos, la anonimización de datos y un tamaño de muestra insuficiente. Existe una falta de métodos de síntesis efectivos en casos en los que los conjuntos de datos reales tienen un número limitado de puntos de datos pero un gran número de características y ruido desconocido. Por lo tanto, en este documento proponemos un método de síntesis de datos llamado Interpolación de Subespacio Adaptativo para Síntesis de Datos (ASIDS). La idea es dividir el espacio de características de datos original en varios subespacios con un número igual de puntos de datos, y luego realizar interpolación en los puntos de datos en los subespacios adyacentes. Este método puede ajustar de forma adaptativa el tamaño de muestra del conjunto de datos sintético que contiene ruido desconocido, y los datos de muestra generados suelen contener errores mínimos. Además, ajusta la composición de características de los puntos de datos, lo que puede reducir significativamente la proporción de puntos de datos con grandes errores de ajuste. Además, los hiperparámetros de este método tienen una interpretación intuitiva y generalmente requieren poca calibración. Los resultados del análisis obtenidos utilizando datos originales simulados y conjuntos de datos originales de referencia demuestran que ASIDS es un método robusto y estable para la síntesis de datos.
Descripción
La mayoría de los métodos de síntesis de datos existentes están diseñados para abordar problemas con el desequilibrio de conjuntos de datos, la anonimización de datos y un tamaño de muestra insuficiente. Existe una falta de métodos de síntesis efectivos en casos en los que los conjuntos de datos reales tienen un número limitado de puntos de datos pero un gran número de características y ruido desconocido. Por lo tanto, en este documento proponemos un método de síntesis de datos llamado Interpolación de Subespacio Adaptativo para Síntesis de Datos (ASIDS). La idea es dividir el espacio de características de datos original en varios subespacios con un número igual de puntos de datos, y luego realizar interpolación en los puntos de datos en los subespacios adyacentes. Este método puede ajustar de forma adaptativa el tamaño de muestra del conjunto de datos sintético que contiene ruido desconocido, y los datos de muestra generados suelen contener errores mínimos. Además, ajusta la composición de características de los puntos de datos, lo que puede reducir significativamente la proporción de puntos de datos con grandes errores de ajuste. Además, los hiperparámetros de este método tienen una interpretación intuitiva y generalmente requieren poca calibración. Los resultados del análisis obtenidos utilizando datos originales simulados y conjuntos de datos originales de referencia demuestran que ASIDS es un método robusto y estable para la síntesis de datos.