Un técnica de preprocesamiento de datos de análisis dinámico para la detección de códigos maliciosos con TF-IDF y ventanas deslizantes
Autores: Kim, Mihui; Kim, Haesoo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un técnica de preprocesamiento de datos de análisis dinámico para la detección de códigos maliciosos con TF-IDF y ventanas deslizantes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Malware
Análisis dinámico
Aprendizaje profundo
Secuencias de llamadas API
Preprocesamiento
Modelo LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Al utilizar datos de análisis dinámico para detectar malware, se utilizan datos de series temporales como secuencias de llamadas a API para determinar actividades maliciosas a través de modelos de aprendizaje profundo como redes neuronales recurrentes (RNN). Sin embargo, en las secuencias de llamadas a API, las API se llaman de manera diferente cuando se ejecutan diferentes programas. Para utilizar estos datos como entrada para el aprendizaje profundo, se realiza un preprocesamiento para unificar el tamaño de los datos agregando ceros ficticios a los datos utilizando la técnica de relleno con ceros. Sin embargo, cuando la desviación estándar del tamaño es significativa, la cantidad de datos ficticios agregados aumenta, lo que dificulta que el modelo de aprendizaje profundo refleje las características de los datos. Por lo tanto, este artículo propone una técnica de preprocesamiento que utiliza la frecuencia de término-frecuencia inversa de documento (TF-IDF) y un algoritmo de ventana deslizante. Entrenamos el modelo de memoria a corto plazo (LSTM) en los datos con el preprocesamiento propuesto, y los resultados, con una precisión del 95.94%, una recuperación del 97.32%, una precisión del 95.71% y una puntuación F1 del 96.5%, mostraron que la técnica de preprocesamiento propuesta es efectiva.
Descripción
Al utilizar datos de análisis dinámico para detectar malware, se utilizan datos de series temporales como secuencias de llamadas a API para determinar actividades maliciosas a través de modelos de aprendizaje profundo como redes neuronales recurrentes (RNN). Sin embargo, en las secuencias de llamadas a API, las API se llaman de manera diferente cuando se ejecutan diferentes programas. Para utilizar estos datos como entrada para el aprendizaje profundo, se realiza un preprocesamiento para unificar el tamaño de los datos agregando ceros ficticios a los datos utilizando la técnica de relleno con ceros. Sin embargo, cuando la desviación estándar del tamaño es significativa, la cantidad de datos ficticios agregados aumenta, lo que dificulta que el modelo de aprendizaje profundo refleje las características de los datos. Por lo tanto, este artículo propone una técnica de preprocesamiento que utiliza la frecuencia de término-frecuencia inversa de documento (TF-IDF) y un algoritmo de ventana deslizante. Entrenamos el modelo de memoria a corto plazo (LSTM) en los datos con el preprocesamiento propuesto, y los resultados, con una precisión del 95.94%, una recuperación del 97.32%, una precisión del 95.71% y una puntuación F1 del 96.5%, mostraron que la técnica de preprocesamiento propuesta es efectiva.