Un algoritmo de colonia de abejas artificial basado en Spark para la clasificación de grandes datos desbalanceados
Autores: Al-Sawwa, Jamil; Almseidin, Mohammad
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un algoritmo de colonia de abejas artificial basado en Spark para la clasificación de grandes datos desbalanceados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo
Datos
Grandes datos
Clasificación
Apache Spark
Escalabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el rápido desarrollo de la tecnología de internet, la cantidad de datos recopilados o generados ha aumentado exponencialmente. El enorme volumen, la complejidad y la naturaleza desequilibrada de estos datos representan un desafío para la comunidad científica para extraer información significativa de estos datos en un tiempo razonable. En este artículo, implementamos un diseño escalable de una colonia de abejas artificial para la clasificación de grandes datos utilizando Apache Spark. Además, se propone una nueva función de aptitud para manejar datos desequilibrados. Se realizaron dos experimentos utilizando conjuntos de datos reales desequilibrados para evaluar el rendimiento y la escalabilidad de nuestro algoritmo propuesto. Los resultados de rendimiento revelan que nuestra función de aptitud propuesta puede manejar de manera eficiente conjuntos de datos desequilibrados y supera estadísticamente a la función de aptitud existente en términos de G-mean y F1-Score. Además, los resultados de escalabilidad demuestran que nuestro diseño basado en Spark obtuvo resultados de aceleración y escalado sobresalientes que están muy cerca de lo óptimo. Además, nuestro diseño basado en Spark escala de manera eficiente con el aumento del tamaño de los datos.
Descripción
Con el rápido desarrollo de la tecnología de internet, la cantidad de datos recopilados o generados ha aumentado exponencialmente. El enorme volumen, la complejidad y la naturaleza desequilibrada de estos datos representan un desafío para la comunidad científica para extraer información significativa de estos datos en un tiempo razonable. En este artículo, implementamos un diseño escalable de una colonia de abejas artificial para la clasificación de grandes datos utilizando Apache Spark. Además, se propone una nueva función de aptitud para manejar datos desequilibrados. Se realizaron dos experimentos utilizando conjuntos de datos reales desequilibrados para evaluar el rendimiento y la escalabilidad de nuestro algoritmo propuesto. Los resultados de rendimiento revelan que nuestra función de aptitud propuesta puede manejar de manera eficiente conjuntos de datos desequilibrados y supera estadísticamente a la función de aptitud existente en términos de G-mean y F1-Score. Además, los resultados de escalabilidad demuestran que nuestro diseño basado en Spark obtuvo resultados de aceleración y escalado sobresalientes que están muy cerca de lo óptimo. Además, nuestro diseño basado en Spark escala de manera eficiente con el aumento del tamaño de los datos.