Enfoques representativos de coincidencia de puntuación asistida por respuesta para análisis de grandes datos y selección de modelos bajo modelos lineales generalizados
Autores: Zheng, Duo; Li, Keren; Yang, Jie
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Enfoques representativos de coincidencia de puntuación asistida por respuesta para análisis de grandes datos y selección de modelos bajo modelos lineales generalizados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Método eficiente propuesto
Enfoque RASMR
GLMs
Partición de datos
Asistido por respuesta
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
En este trabajo, proponemos un método eficiente llamado enfoque representativo de emparejamiento de puntuaciones asistidas por respuesta (RASMR) para facilitar la selección de modelos de datos masivos y el análisis de datos con modelos lineales generalizados (GLMs) y una partición de datos predeterminada debido a la localización de datos. Similar al enfoque original de emparejamiento de puntuaciones representativas (SMR), RASMR construye un punto de datos artificial, llamado el representante, para cada bloque de datos. Luego ajusta un GLM en el conjunto de datos representativo, que proporciona no solo un enfoque eficiente para el análisis de datos masivos, sino también una solución ideal en respuesta a preocupaciones de privacidad al evitar la transferencia de datos sensibles. Al dividir aún más los bloques de datos según los valores de las variables de respuesta, RASMR puede obtener estimaciones de parámetros más precisas que SMR. Además, mediante justificaciones teóricas y estudios de simulación, mostramos que RASMR puede ser utilizado de manera más eficiente para la selección de modelos y la selección de variables para un conjunto de datos masivo mediante la aproximación del criterio de información de Akaike (AIC) y los errores de predicción agregados para la validación cruzada, que se utilizan comúnmente para elegir el modelo estadístico más apropiado y obtener conclusiones confiables. También aplicamos el enfoque propuesto de RASMR a los datos de rendimiento puntual de las aerolíneas, que consta de 371 archivos de datos etiquetados por mes, y mostramos que RASMR puede utilizarse con éxito para seleccionar el modelo más apropiado para un análisis de datos masivos reales.
Descripción
En este trabajo, proponemos un método eficiente llamado enfoque representativo de emparejamiento de puntuaciones asistidas por respuesta (RASMR) para facilitar la selección de modelos de datos masivos y el análisis de datos con modelos lineales generalizados (GLMs) y una partición de datos predeterminada debido a la localización de datos. Similar al enfoque original de emparejamiento de puntuaciones representativas (SMR), RASMR construye un punto de datos artificial, llamado el representante, para cada bloque de datos. Luego ajusta un GLM en el conjunto de datos representativo, que proporciona no solo un enfoque eficiente para el análisis de datos masivos, sino también una solución ideal en respuesta a preocupaciones de privacidad al evitar la transferencia de datos sensibles. Al dividir aún más los bloques de datos según los valores de las variables de respuesta, RASMR puede obtener estimaciones de parámetros más precisas que SMR. Además, mediante justificaciones teóricas y estudios de simulación, mostramos que RASMR puede ser utilizado de manera más eficiente para la selección de modelos y la selección de variables para un conjunto de datos masivo mediante la aproximación del criterio de información de Akaike (AIC) y los errores de predicción agregados para la validación cruzada, que se utilizan comúnmente para elegir el modelo estadístico más apropiado y obtener conclusiones confiables. También aplicamos el enfoque propuesto de RASMR a los datos de rendimiento puntual de las aerolíneas, que consta de 371 archivos de datos etiquetados por mes, y mostramos que RASMR puede utilizarse con éxito para seleccionar el modelo más apropiado para un análisis de datos masivos reales.