logo móvil
Contáctanos

Enfoques representativos de coincidencia de puntuación asistida por respuesta para análisis de grandes datos y selección de modelos bajo modelos lineales generalizados

Autores: Zheng, Duo; Li, Keren; Yang, Jie

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Enfoques representativos de coincidencia de puntuación asistida por respuesta para análisis de grandes datos y selección de modelos bajo modelos lineales generalizados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Método eficiente propuesto
Enfoque RASMR
GLMs
Partición de datos
Asistido por respuesta

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
En este trabajo, proponemos un método eficiente llamado enfoque representativo de emparejamiento de puntuaciones asistidas por respuesta (RASMR) para facilitar la selección de modelos de datos masivos y el análisis de datos con modelos lineales generalizados (GLMs) y una partición de datos predeterminada debido a la localización de datos. Similar al enfoque original de emparejamiento de puntuaciones representativas (SMR), RASMR construye un punto de datos artificial, llamado el representante, para cada bloque de datos. Luego ajusta un GLM en el conjunto de datos representativo, que proporciona no solo un enfoque eficiente para el análisis de datos masivos, sino también una solución ideal en respuesta a preocupaciones de privacidad al evitar la transferencia de datos sensibles. Al dividir aún más los bloques de datos según los valores de las variables de respuesta, RASMR puede obtener estimaciones de parámetros más precisas que SMR. Además, mediante justificaciones teóricas y estudios de simulación, mostramos que RASMR puede ser utilizado de manera más eficiente para la selección de modelos y la selección de variables para un conjunto de datos masivo mediante la aproximación del criterio de información de Akaike (AIC) y los errores de predicción agregados para la validación cruzada, que se utilizan comúnmente para elegir el modelo estadístico más apropiado y obtener conclusiones confiables. También aplicamos el enfoque propuesto de RASMR a los datos de rendimiento puntual de las aerolíneas, que consta de 371 archivos de datos etiquetados por mes, y mostramos que RASMR puede utilizarse con éxito para seleccionar el modelo más apropiado para un análisis de datos masivos reales.

Otros recursos que podrían interesarte

Temas Virtualpro