logo móvil
Contáctanos

Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares

Autores: Homocianu, Daniel; Airinei, Dinu

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Herramientas
Variables
Coeficientes de correlación
Significancia
Valores de umbral
Progreso de exploración

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
El artículo describe PCDM y PCDM4MP como nuevas herramientas y comandos capaces de explorar grandes conjuntos de datos. Se seleccionan variables basadas en la identificación de los valores absolutos de los coeficientes de correlación de Pearson entre una variable de respuesta elegida y cualquier otra existente en el conjunto de datos. Además, para cada par, también se informa sobre la correspondiente significancia y el número de observaciones interseccionales no nulas, y todo este informe se realiza de manera orientada al registro (tanto de origen como de salida). Opcionalmente, utilizando valores de umbral para estos tres parámetros de PCDM, cualquier usuario puede seleccionar las variables más correlacionadas basadas en criterios de alta magnitud, significancia y soporte. La sintaxis es simple, y las herramientas muestran el progreso de la exploración en tiempo real. Además, PCDM4MP puede activar diferentes instancias de Stata, cada una utilizando una clase distinta de variables pertenecientes al mismo conjunto de datos y resultantes después de un simple filtrado por nombre (primera letra). Además, esta versión de multiprocesamiento (MP) supera las limitaciones de paralelización del módulo paralelo existente, y esto se logra utilizando particiones verticales en lugar de horizontales de grandes conjuntos de datos planos, generación dinámica del patrón de tareas, tareas y registros, todo dentro de una sola ejecución de este segundo comando, y el módulo qsub existente para asignar automáticamente y de forma continua las tareas a procesadores lógicos y así emular con menos recursos un entorno de clúster. Además, cualquier usuario puede realizar más selecciones basadas en los resultados impresos en la consola. El artículo contiene ejemplos de uso de estas herramientas para grandes conjuntos de datos como el perteneciente a la Encuesta Mundial de Valores y basado en una práctica simple de nombramiento de variables. Este artículo incluye muchas simulaciones registradas y presenta resultados de rendimiento. Dependiendo de los recursos y configuraciones de hardware utilizados, incluyendo la nube frente a locales, grandes frente a pequeñas cantidades de RAM y núcleos de procesamiento, y almacenamiento en memoria frente a tradicional.

Otros recursos que podrían interesarte

Temas Virtualpro