Un método de selección de características para la clasificación de tráfico de red a gran escala basado en Spark
Autores: Wang, Yong; Ke, Wenlong; Tao, Xiaoling
Idioma: Inglés
Editor: MDPI
Año: 2016
Acceso abierto
Artículo científico
2016
Un método de selección de características para la clasificación de tráfico de red a gran escala basado en Spark
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Rápido
Escalas de datos
Clasificaciones de tráfico de red
Selección de características
Marco de computación Spark
Eficiencia de ejecución
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Actualmente, con el rápido aumento de las escalas de datos en las clasificaciones de tráfico de red, seleccionar características de tráfico de manera eficiente se está convirtiendo en un gran desafío. Aunque se han propuesto varios métodos tradicionales de selección de características utilizando el marco Hadoop-MapReduce, el tiempo de ejecución seguía siendo insatisfactorio debido a los numerosos cálculos iterativos durante el procesamiento. Para abordar este problema, se propone en este artículo un método eficiente de selección de características para el tráfico de red basado en un nuevo marco de computación paralela llamado Spark. En nuestro enfoque, el conjunto completo de características se preprocesa primero en función de la puntuación de Fisher, y se emplea una estrategia de búsqueda secuencial hacia adelante para los subconjuntos. Luego, se selecciona el subconjunto óptimo de características utilizando las iteraciones continuas del marco de computación Spark. La implementación demuestra que, bajo la condición de mantener la precisión de clasificación, nuestro método reduce el costo de tiempo de modelado y clasificación, y mejora significativamente la eficiencia de ejecución de la selección de características.
Descripción
Actualmente, con el rápido aumento de las escalas de datos en las clasificaciones de tráfico de red, seleccionar características de tráfico de manera eficiente se está convirtiendo en un gran desafío. Aunque se han propuesto varios métodos tradicionales de selección de características utilizando el marco Hadoop-MapReduce, el tiempo de ejecución seguía siendo insatisfactorio debido a los numerosos cálculos iterativos durante el procesamiento. Para abordar este problema, se propone en este artículo un método eficiente de selección de características para el tráfico de red basado en un nuevo marco de computación paralela llamado Spark. En nuestro enfoque, el conjunto completo de características se preprocesa primero en función de la puntuación de Fisher, y se emplea una estrategia de búsqueda secuencial hacia adelante para los subconjuntos. Luego, se selecciona el subconjunto óptimo de características utilizando las iteraciones continuas del marco de computación Spark. La implementación demuestra que, bajo la condición de mantener la precisión de clasificación, nuestro método reduce el costo de tiempo de modelado y clasificación, y mejora significativamente la eficiencia de ejecución de la selección de características.