Proyección-uniforme métodos de submuestreo para grandes datos
Autores: Sun, Yuxin; Liu, Wenjun; Tian, Ye
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Proyección-uniforme métodos de submuestreo para grandes datos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Diseño experimental
Algoritmos de submuestreo
Basado en modelo
Libre de modelo
Algoritmo de submuestreo uniforme de proyección
Llenado de espacio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La idea de diseño experimental se ha utilizado ampliamente en algoritmos de submuestreo para extraer una pequeña porción de grandes datos que contienen información útil para modelado estadístico. La mayoría de los algoritmos de submuestreo existentes de este tipo son basados en modelos y diseñados para lograr los criterios de optimalidad correspondientes para el modelo. Sin embargo, los modelos generadores de datos son frecuentemente desconocidos o complicados. Se necesitan algoritmos de submuestreo libres de modelo para obtener muestras que sean robustas ante la mala especificación y complicación del modelo. Este artículo presenta dos algoritmos novedosos, llamados el algoritmo de Submuestreo de Proyección-Uniforme y su extensión. Ambos algoritmos tienen como objetivo extraer un subconjunto de muestras de grandes datos que llenen el espacio en proyecciones de baja dimensión. Mostramos que los subdatos obtenidos de nuestros algoritmos tienen un rendimiento superior bajo el criterio de proyección uniforme y discrepancia centrada. Se realizan comparaciones entre nuestros algoritmos, métodos basados en modelos y libres de modelo a través de dos estudios de simulación y dos estudios de casos del mundo real. Demostramos la robustez de nuestros algoritmos propuestos en la construcción de modelos estadísticos en escenarios que involucran mala especificación y complicación del modelo.
Descripción
La idea de diseño experimental se ha utilizado ampliamente en algoritmos de submuestreo para extraer una pequeña porción de grandes datos que contienen información útil para modelado estadístico. La mayoría de los algoritmos de submuestreo existentes de este tipo son basados en modelos y diseñados para lograr los criterios de optimalidad correspondientes para el modelo. Sin embargo, los modelos generadores de datos son frecuentemente desconocidos o complicados. Se necesitan algoritmos de submuestreo libres de modelo para obtener muestras que sean robustas ante la mala especificación y complicación del modelo. Este artículo presenta dos algoritmos novedosos, llamados el algoritmo de Submuestreo de Proyección-Uniforme y su extensión. Ambos algoritmos tienen como objetivo extraer un subconjunto de muestras de grandes datos que llenen el espacio en proyecciones de baja dimensión. Mostramos que los subdatos obtenidos de nuestros algoritmos tienen un rendimiento superior bajo el criterio de proyección uniforme y discrepancia centrada. Se realizan comparaciones entre nuestros algoritmos, métodos basados en modelos y libres de modelo a través de dos estudios de simulación y dos estudios de casos del mundo real. Demostramos la robustez de nuestros algoritmos propuestos en la construcción de modelos estadísticos en escenarios que involucran mala especificación y complicación del modelo.