Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares
Autores: Homocianu, Daniel; Airinei, Dinu
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Herramientas
Variables
Coeficientes de correlación
Significancia
Valores de umbral
Progreso de exploración
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El artículo describe PCDM y PCDM4MP como nuevas herramientas y comandos capaces de explorar grandes conjuntos de datos. Se seleccionan variables basadas en la identificación de los valores absolutos de los coeficientes de correlación de Pearson entre una variable de respuesta elegida y cualquier otra existente en el conjunto de datos. Además, para cada par, también se informa sobre la correspondiente significancia y el número de observaciones interseccionales no nulas, y todo este informe se realiza de manera orientada al registro (tanto de origen como de salida). Opcionalmente, utilizando valores de umbral para estos tres parámetros de PCDM, cualquier usuario puede seleccionar las variables más correlacionadas basadas en criterios de alta magnitud, significancia y soporte. La sintaxis es simple, y las herramientas muestran el progreso de la exploración en tiempo real. Además, PCDM4MP puede activar diferentes instancias de Stata, cada una utilizando una clase distinta de variables pertenecientes al mismo conjunto de datos y resultantes después de un simple filtrado por nombre (primera letra). Además, esta versión de multiprocesamiento (MP) supera las limitaciones de paralelización del módulo paralelo existente, y esto se logra utilizando particiones verticales en lugar de horizontales de grandes conjuntos de datos planos, generación dinámica del patrón de tareas, tareas y registros, todo dentro de una sola ejecución de este segundo comando, y el módulo qsub existente para asignar automáticamente y de forma continua las tareas a procesadores lógicos y así emular con menos recursos un entorno de clúster. Además, cualquier usuario puede realizar más selecciones basadas en los resultados impresos en la consola. El artículo contiene ejemplos de uso de estas herramientas para grandes conjuntos de datos como el perteneciente a la Encuesta Mundial de Valores y basado en una práctica simple de nombramiento de variables. Este artículo incluye muchas simulaciones registradas y presenta resultados de rendimiento. Dependiendo de los recursos y configuraciones de hardware utilizados, incluyendo la nube frente a locales, grandes frente a pequeñas cantidades de RAM y núcleos de procesamiento, y almacenamiento en memoria frente a tradicional.
Descripción
El artículo describe PCDM y PCDM4MP como nuevas herramientas y comandos capaces de explorar grandes conjuntos de datos. Se seleccionan variables basadas en la identificación de los valores absolutos de los coeficientes de correlación de Pearson entre una variable de respuesta elegida y cualquier otra existente en el conjunto de datos. Además, para cada par, también se informa sobre la correspondiente significancia y el número de observaciones interseccionales no nulas, y todo este informe se realiza de manera orientada al registro (tanto de origen como de salida). Opcionalmente, utilizando valores de umbral para estos tres parámetros de PCDM, cualquier usuario puede seleccionar las variables más correlacionadas basadas en criterios de alta magnitud, significancia y soporte. La sintaxis es simple, y las herramientas muestran el progreso de la exploración en tiempo real. Además, PCDM4MP puede activar diferentes instancias de Stata, cada una utilizando una clase distinta de variables pertenecientes al mismo conjunto de datos y resultantes después de un simple filtrado por nombre (primera letra). Además, esta versión de multiprocesamiento (MP) supera las limitaciones de paralelización del módulo paralelo existente, y esto se logra utilizando particiones verticales en lugar de horizontales de grandes conjuntos de datos planos, generación dinámica del patrón de tareas, tareas y registros, todo dentro de una sola ejecución de este segundo comando, y el módulo qsub existente para asignar automáticamente y de forma continua las tareas a procesadores lógicos y así emular con menos recursos un entorno de clúster. Además, cualquier usuario puede realizar más selecciones basadas en los resultados impresos en la consola. El artículo contiene ejemplos de uso de estas herramientas para grandes conjuntos de datos como el perteneciente a la Encuesta Mundial de Valores y basado en una práctica simple de nombramiento de variables. Este artículo incluye muchas simulaciones registradas y presenta resultados de rendimiento. Dependiendo de los recursos y configuraciones de hardware utilizados, incluyendo la nube frente a locales, grandes frente a pequeñas cantidades de RAM y núcleos de procesamiento, y almacenamiento en memoria frente a tradicional.