Técnicas de selección de características para análisis de big data
Autores: Albattah, Waleed; Khan, Rehan Ullah; Alsharekh, Mohammed F.; Khasawneh, Samer F.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Técnicas de selección de características para análisis de big data
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aplicaciones de big data
Algoritmos de aprendizaje automático
Recursos informáticos
Técnicas de muestreo aleatorio
Técnicas de selección de características
Clasificadores de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Las aplicaciones de big data han aumentado enormemente debido a los desarrollos tecnológicos. Sin embargo, procesar una gran cantidad de datos es un desafío para los algoritmos de aprendizaje automático y los recursos informáticos. Este estudio tiene como objetivo analizar una gran cantidad de datos con aprendizaje automático clásico. La influencia de diferentes técnicas de muestreo aleatorio en el rendimiento del modelo es investigada mediante la combinación de técnicas de selección de características y clasificadores de aprendizaje automático. Los experimentos utilizaron dos técnicas de selección de características: subconjunto aleatorio y proyección aleatoria. También se utilizaron dos clasificadores de aprendizaje automático: Naïve Bayes y Red Bayesiana. Este estudio tiene como objetivo maximizar el rendimiento del modelo al reducir la dimensionalidad de los datos. En los experimentos, se realizaron 400 ejecuciones al reducir la dimensionalidad de un conjunto de datos de video que era de más de 40 GB. Los resultados muestran que el rendimiento general fluctúa entre un 70% de precisión y un 74% al utilizar muestras y no muestras (todos los datos), una ligera diferencia en el rendimiento en comparación con el conjunto de datos no muestreado. Con la visión general de los resultados, el mejor rendimiento entre todas las combinaciones de experimentos se registra para la combinación 3, donde se utilizaron la técnica de subconjunto aleatorio y el clasificador de Red Bayesiana. Excepto por la ronda donde se utilizó el 10% del conjunto de datos, la combinación 1 tiene el mejor rendimiento entre todas las combinaciones.
Descripción
Las aplicaciones de big data han aumentado enormemente debido a los desarrollos tecnológicos. Sin embargo, procesar una gran cantidad de datos es un desafío para los algoritmos de aprendizaje automático y los recursos informáticos. Este estudio tiene como objetivo analizar una gran cantidad de datos con aprendizaje automático clásico. La influencia de diferentes técnicas de muestreo aleatorio en el rendimiento del modelo es investigada mediante la combinación de técnicas de selección de características y clasificadores de aprendizaje automático. Los experimentos utilizaron dos técnicas de selección de características: subconjunto aleatorio y proyección aleatoria. También se utilizaron dos clasificadores de aprendizaje automático: Naïve Bayes y Red Bayesiana. Este estudio tiene como objetivo maximizar el rendimiento del modelo al reducir la dimensionalidad de los datos. En los experimentos, se realizaron 400 ejecuciones al reducir la dimensionalidad de un conjunto de datos de video que era de más de 40 GB. Los resultados muestran que el rendimiento general fluctúa entre un 70% de precisión y un 74% al utilizar muestras y no muestras (todos los datos), una ligera diferencia en el rendimiento en comparación con el conjunto de datos no muestreado. Con la visión general de los resultados, el mejor rendimiento entre todas las combinaciones de experimentos se registra para la combinación 3, donde se utilizaron la técnica de subconjunto aleatorio y el clasificador de Red Bayesiana. Excepto por la ronda donde se utilizó el 10% del conjunto de datos, la combinación 1 tiene el mejor rendimiento entre todas las combinaciones.