Examen avanzado del reconocimiento del comportamiento del usuario a través del análisis de conjuntos de datos de registro de aplicaciones web utilizando técnicas de minería de datos
Autores: Borowiec, Marcin; Rak, Tomasz
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Examen avanzado del reconocimiento del comportamiento del usuario a través del análisis de conjuntos de datos de registro de aplicaciones web utilizando técnicas de minería de datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Sistemas web
Contenerización
Métodos analíticos
Aprendizaje automático
Detección de anomalías
Técnicas de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
A medida que los sistemas web basados en contenerización atraen cada vez más interés de investigación, la necesidad de métodos analíticos efectivos se ha intensificado, con un énfasis en la eficiencia y la reducción de costos. Las herramientas de simulación de clientes web se han utilizado para avanzar en este objetivo. Si bien es común aplicar métodos de aprendizaje automático (ML) para la detección de anomalías en las solicitudes, predecir patrones en conjuntos de datos web sigue siendo una tarea compleja. Enfoques previos que incorporan elementos como URL, contenido de páginas web y características auxiliares no han proporcionado resultados satisfactorios. Además, dichos métodos no han mejorado significativamente la comprensión del comportamiento del cliente y la variedad de tipos de solicitudes. Para superar estas deficiencias, este estudio introduce un enfoque incremental para la categorización de solicitudes. Esta investigación implica un examen detallado de varias técnicas de clasificación establecidas, evaluando su rendimiento en un conjunto de datos seleccionado para determinar el modelo más efectivo para tareas de clasificación. El conjunto de datos utilizado consta de 8 millones de registros distintos, cada uno definido por métricas de rendimiento. Tras realizar un entrenamiento y pruebas meticulosos de múltiples algoritmos de la familia CART, se determinó que Extreme Gradient Boosting era el modelo con mejor rendimiento para tareas de clasificación. Este modelo supera la precisión de predicción, incluso para solicitudes no reconocidas, alcanzando una precisión notable del 97% en diversos conjuntos de datos. Estos resultados destacan el rendimiento excepcional de Extreme Gradient Boosting frente a otras técnicas de ML, proporcionando ideas sustanciales para la categorización eficiente de solicitudes en sistemas web.
Descripción
A medida que los sistemas web basados en contenerización atraen cada vez más interés de investigación, la necesidad de métodos analíticos efectivos se ha intensificado, con un énfasis en la eficiencia y la reducción de costos. Las herramientas de simulación de clientes web se han utilizado para avanzar en este objetivo. Si bien es común aplicar métodos de aprendizaje automático (ML) para la detección de anomalías en las solicitudes, predecir patrones en conjuntos de datos web sigue siendo una tarea compleja. Enfoques previos que incorporan elementos como URL, contenido de páginas web y características auxiliares no han proporcionado resultados satisfactorios. Además, dichos métodos no han mejorado significativamente la comprensión del comportamiento del cliente y la variedad de tipos de solicitudes. Para superar estas deficiencias, este estudio introduce un enfoque incremental para la categorización de solicitudes. Esta investigación implica un examen detallado de varias técnicas de clasificación establecidas, evaluando su rendimiento en un conjunto de datos seleccionado para determinar el modelo más efectivo para tareas de clasificación. El conjunto de datos utilizado consta de 8 millones de registros distintos, cada uno definido por métricas de rendimiento. Tras realizar un entrenamiento y pruebas meticulosos de múltiples algoritmos de la familia CART, se determinó que Extreme Gradient Boosting era el modelo con mejor rendimiento para tareas de clasificación. Este modelo supera la precisión de predicción, incluso para solicitudes no reconocidas, alcanzando una precisión notable del 97% en diversos conjuntos de datos. Estos resultados destacan el rendimiento excepcional de Extreme Gradient Boosting frente a otras técnicas de ML, proporcionando ideas sustanciales para la categorización eficiente de solicitudes en sistemas web.