Dos pasos de clasificación con preprocesamiento SVD de conjuntos de datos masivos distribuidos en Apache Spark

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Dos pasos de clasificación con preprocesamiento SVD de conjuntos de datos masivos distribuidos en Apache Spark

Autores: Alexopoulos, Athanasios; Drakopoulos, Georgios; Kanavos, Andreas; Mylonas, Phivos; Vonitsanos, Gerasimos

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Dos pasos de clasificación con preprocesamiento SVD de conjuntos de datos masivos distribuidos en Apache Spark

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Era de datos

Ecosistema de big data

Aprendizaje automático

Plataformas distribuidas

Clasificadores

Ecosistema de Hadoop

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

En el amanecer de la era de los datos masivos o big data, existen una cantidad considerable de fuentes como teléfonos inteligentes, dispositivos IoT, redes sociales, sensores de ciudades inteligentes, así como el sistema de atención médica, todos los cuales constituyen solo una pequeña parte de los lagos de datos que alimentan todo el ecosistema de big data. Este crecimiento de datos de 10V plantea dos desafíos principales, a saber, almacenamiento y procesamiento. En lo que respecta al último, se han desarrollado nuevos marcos que incluyen plataformas distribuidas como el ecosistema Hadoop. La clasificación es una tarea importante de aprendizaje automático que se ejecuta típicamente en plataformas distribuidas y, como consecuencia, se han desarrollado muchas técnicas algorítmicas adaptadas para estas plataformas. Este artículo se basa extensamente de dos maneras en clasificadores implementados en MLlib, la principal biblioteca de aprendizaje automático para el ecosistema Hadoop. Primero, se aplica un gran número de clasificadores a dos conjuntos de datos, a saber, Higgs y PAMAP. Segundo, se realiza una clasificación en dos pasos a los mismos conjuntos de datos. Específicamente, la descomposición en valores singulares de la matriz de datos determina primero un conjunto de atributos transformados que a su vez impulsan los clasificadores de MLlib. El propósito doble de la arquitectura propuesta es reducir la complejidad manteniendo un nivel similar, si no mejor, de las métricas de precisión, recuperación y. La intuición detrás de este enfoque se deriva del principio de ingeniería de descomponer problemas complejos en tareas más simples y manejables. Los experimentos basados en el mismo clúster de Spark indican que la arquitectura propuesta supera a los clasificadores individuales en cuanto a complejidad y las métricas mencionadas anteriormente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro