logo móvil
Contáctanos

Un algoritmo de colonia de abejas artificial basado en Spark para la clasificación de grandes datos desbalanceados

Autores: Al-Sawwa, Jamil; Almseidin, Mohammad

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un algoritmo de colonia de abejas artificial basado en Spark para la clasificación de grandes datos desbalanceados


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desarrollo
Datos
Grandes datos
Clasificación
Apache Spark
Escalabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Con el rápido desarrollo de la tecnología de internet, la cantidad de datos recopilados o generados ha aumentado exponencialmente. El enorme volumen, la complejidad y la naturaleza desequilibrada de estos datos representan un desafío para la comunidad científica para extraer información significativa de estos datos en un tiempo razonable. En este artículo, implementamos un diseño escalable de una colonia de abejas artificial para la clasificación de grandes datos utilizando Apache Spark. Además, se propone una nueva función de aptitud para manejar datos desequilibrados. Se realizaron dos experimentos utilizando conjuntos de datos reales desequilibrados para evaluar el rendimiento y la escalabilidad de nuestro algoritmo propuesto. Los resultados de rendimiento revelan que nuestra función de aptitud propuesta puede manejar de manera eficiente conjuntos de datos desequilibrados y supera estadísticamente a la función de aptitud existente en términos de G-mean y F1-Score. Además, los resultados de escalabilidad demuestran que nuestro diseño basado en Spark obtuvo resultados de aceleración y escalado sobresalientes que están muy cerca de lo óptimo. Además, nuestro diseño basado en Spark escala de manera eficiente con el aumento del tamaño de los datos.

Otros recursos que podrían interesarte

Temas Virtualpro