logo móvil
Contáctanos

Mejorando la selección de características de Big Data utilizando una selección de características híbrida basada en correlación

Autores: Mohamad, Masurah; Selamat, Ali; Krejcar, Ondrej; Crespo, Ruben Gonzalez; Herrera-Viedma, Enrique; Fujita, Hamido

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Mejorando la selección de características de Big Data utilizando una selección de características híbrida basada en correlación


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Método propuesto
Selección de características
Extracción de datos
Rendimiento del clasificador
Análisis de decisiones
Complejidad temporal computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Este estudio propone un método alternativo de extracción de datos que combina tres métodos de selección de características bien conocidos para manejar conjuntos de datos grandes y problemáticos: la selección de características basada en correlación (CFS), la búsqueda del mejor primero (BFS) y el enfoque de conjuntos aproximados basado en dominancia (DRSA). Este estudio tiene como objetivo mejorar el rendimiento del clasificador en el análisis de decisiones al eliminar valores de datos no correlacionados e inconsistentes. El método propuesto, llamado CFS-DRSA, comprende varias fases ejecutadas en secuencia, con las fases principales que incorporan dos tareas de extracción de características cruciales. La reducción de datos es la primera, que implementa un método CFS con un algoritmo BFS. En segundo lugar, un proceso de selección de datos aplica un DRSA para generar el conjunto de datos optimizado. Por lo tanto, este estudio tiene como objetivo resolver la complejidad del tiempo de cálculo y aumentar la precisión de la clasificación. Se utilizaron varios conjuntos de datos con diversas características y volúmenes en el proceso experimental para evaluar la credibilidad del método propuesto. El rendimiento del método se validó utilizando medidas de evaluación estándar y se comparó con otros métodos establecidos como el aprendizaje profundo (DL). En general, el trabajo propuesto demostró que podría ayudar al clasificador a devolver un resultado significativo, con una tasa de precisión del 82.1% para el clasificador de red neuronal (NN), en comparación con la máquina de vectores de soporte (SVM), que devolvió 66.5% y 49.96% para DL. El resultado estadístico del análisis de varianza de un solo sentido (ANOVA) indica que el método propuesto es una herramienta de extracción alternativa para aquellos con dificultades para adquirir herramientas costosas de análisis de big data y para aquellos que son nuevos en el campo del análisis de datos.

Otros recursos que podrían interesarte

Temas Virtualpro