logo móvil
Contáctanos

Dos pasos de clasificación con preprocesamiento SVD de conjuntos de datos masivos distribuidos en Apache Spark

Autores: Alexopoulos, Athanasios; Drakopoulos, Georgios; Kanavos, Andreas; Mylonas, Phivos; Vonitsanos, Gerasimos

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Dos pasos de clasificación con preprocesamiento SVD de conjuntos de datos masivos distribuidos en Apache Spark


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Era de datos
Ecosistema de big data
Aprendizaje automático
Plataformas distribuidas
Clasificadores
Ecosistema de Hadoop

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
En el amanecer de la era de los datos masivos o big data, existen una cantidad considerable de fuentes como teléfonos inteligentes, dispositivos IoT, redes sociales, sensores de ciudades inteligentes, así como el sistema de atención médica, todos los cuales constituyen solo una pequeña parte de los lagos de datos que alimentan todo el ecosistema de big data. Este crecimiento de datos de 10V plantea dos desafíos principales, a saber, almacenamiento y procesamiento. En lo que respecta al último, se han desarrollado nuevos marcos que incluyen plataformas distribuidas como el ecosistema Hadoop. La clasificación es una tarea importante de aprendizaje automático que se ejecuta típicamente en plataformas distribuidas y, como consecuencia, se han desarrollado muchas técnicas algorítmicas adaptadas para estas plataformas. Este artículo se basa extensamente de dos maneras en clasificadores implementados en MLlib, la principal biblioteca de aprendizaje automático para el ecosistema Hadoop. Primero, se aplica un gran número de clasificadores a dos conjuntos de datos, a saber, Higgs y PAMAP. Segundo, se realiza una clasificación en dos pasos a los mismos conjuntos de datos. Específicamente, la descomposición en valores singulares de la matriz de datos determina primero un conjunto de atributos transformados que a su vez impulsan los clasificadores de MLlib. El propósito doble de la arquitectura propuesta es reducir la complejidad manteniendo un nivel similar, si no mejor, de las métricas de precisión, recuperación y. La intuición detrás de este enfoque se deriva del principio de ingeniería de descomponer problemas complejos en tareas más simples y manejables. Los experimentos basados en el mismo clúster de Spark indican que la arquitectura propuesta supera a los clasificadores individuales en cuanto a complejidad y las métricas mencionadas anteriormente.

Otros recursos que podrían interesarte

Temas Virtualpro