Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares

Autores: Homocianu, Daniel; Airinei, Dinu

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Pcdm y pcdm4mp: nuevas herramientas de minería de datos basadas en correlaciones de pares para el procesamiento en paralelo de grandes conjuntos de datos tabulares

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Herramientas

Variables

Coeficientes de correlación

Significancia

Valores de umbral

Progreso de exploración

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

El artículo describe PCDM y PCDM4MP como nuevas herramientas y comandos capaces de explorar grandes conjuntos de datos. Se seleccionan variables basadas en la identificación de los valores absolutos de los coeficientes de correlación de Pearson entre una variable de respuesta elegida y cualquier otra existente en el conjunto de datos. Además, para cada par, también se informa sobre la correspondiente significancia y el número de observaciones interseccionales no nulas, y todo este informe se realiza de manera orientada al registro (tanto de origen como de salida). Opcionalmente, utilizando valores de umbral para estos tres parámetros de PCDM, cualquier usuario puede seleccionar las variables más correlacionadas basadas en criterios de alta magnitud, significancia y soporte. La sintaxis es simple, y las herramientas muestran el progreso de la exploración en tiempo real. Además, PCDM4MP puede activar diferentes instancias de Stata, cada una utilizando una clase distinta de variables pertenecientes al mismo conjunto de datos y resultantes después de un simple filtrado por nombre (primera letra). Además, esta versión de multiprocesamiento (MP) supera las limitaciones de paralelización del módulo paralelo existente, y esto se logra utilizando particiones verticales en lugar de horizontales de grandes conjuntos de datos planos, generación dinámica del patrón de tareas, tareas y registros, todo dentro de una sola ejecución de este segundo comando, y el módulo qsub existente para asignar automáticamente y de forma continua las tareas a procesadores lógicos y así emular con menos recursos un entorno de clúster. Además, cualquier usuario puede realizar más selecciones basadas en los resultados impresos en la consola. El artículo contiene ejemplos de uso de estas herramientas para grandes conjuntos de datos como el perteneciente a la Encuesta Mundial de Valores y basado en una práctica simple de nombramiento de variables. Este artículo incluye muchas simulaciones registradas y presenta resultados de rendimiento. Dependiendo de los recursos y configuraciones de hardware utilizados, incluyendo la nube frente a locales, grandes frente a pequeñas cantidades de RAM y núcleos de procesamiento, y almacenamiento en memoria frente a tradicional.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro