MalOSDF: un marco de detección de malware basado en fragmentos de opcode utilizando aprendizaje activo y de conjunto
Autores: Guo, Wenjie; Xue, Jingfeng; Meng, Wenheng; Han, Weijie; Liu, Zishu; Wang, Yong; Li, Zhongjun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
MalOSDF: un marco de detección de malware basado en fragmentos de opcode utilizando aprendizaje activo y de conjunto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Evolución
Malware
Detección
Marco de trabajo
Aprendizaje automático
SSEAL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La evolución del malware plantea desafíos significativos para la seguridad del ciberespacio. Los enfoques basados en aprendizaje automático han demostrado un potencial significativo en el campo de detección de malware. Sin embargo, tales métodos están parcialmente limitados, como tener un espacio de características tremendo, desigualdad de datos y alto costo de etiquetado. En respuesta a estos cuellos de botella mencionados anteriormente, este documento presenta un marco de detección de malware basado en rebanadas de códigos de operación utilizando aprendizaje activo y de conjunto (MalOSDF). Inspirado en la tecnología de corte de códigos tradicional, este documento propone un método de ingeniería de características basado en rebanadas de códigos de operación para la detección de malware para capturar mejor las características del malware. Para abordar los desafíos de altos costos de expertos y distribución desequilibrada de muestras, este documento propone el algoritmo SSEAL (Aprendizaje Activo de Conjunto Semi-Supervisado). Específicamente, el módulo de aprendizaje semi-supervisado reduce los costos de etiquetado de datos, el módulo de aprendizaje activo permite la extracción de conocimiento de muestras informativas y el módulo de aprendizaje de conjunto asegura la confiabilidad del modelo. Además, se realizan cinco experimentos utilizando el conjunto de datos de Kaggle y DataWhale para validar el marco propuesto. Los resultados experimentales demuestran que nuestro método representa efectivamente las características del malware. Además, SSEAL logra su objetivo previsto al entrenar el modelo con solo el 13.4% de los datos disponibles.
Descripción
La evolución del malware plantea desafíos significativos para la seguridad del ciberespacio. Los enfoques basados en aprendizaje automático han demostrado un potencial significativo en el campo de detección de malware. Sin embargo, tales métodos están parcialmente limitados, como tener un espacio de características tremendo, desigualdad de datos y alto costo de etiquetado. En respuesta a estos cuellos de botella mencionados anteriormente, este documento presenta un marco de detección de malware basado en rebanadas de códigos de operación utilizando aprendizaje activo y de conjunto (MalOSDF). Inspirado en la tecnología de corte de códigos tradicional, este documento propone un método de ingeniería de características basado en rebanadas de códigos de operación para la detección de malware para capturar mejor las características del malware. Para abordar los desafíos de altos costos de expertos y distribución desequilibrada de muestras, este documento propone el algoritmo SSEAL (Aprendizaje Activo de Conjunto Semi-Supervisado). Específicamente, el módulo de aprendizaje semi-supervisado reduce los costos de etiquetado de datos, el módulo de aprendizaje activo permite la extracción de conocimiento de muestras informativas y el módulo de aprendizaje de conjunto asegura la confiabilidad del modelo. Además, se realizan cinco experimentos utilizando el conjunto de datos de Kaggle y DataWhale para validar el marco propuesto. Los resultados experimentales demuestran que nuestro método representa efectivamente las características del malware. Además, SSEAL logra su objetivo previsto al entrenar el modelo con solo el 13.4% de los datos disponibles.