logo móvil
Contáctanos

Aapfe: Aligned assembly pre-training function embedding para el análisis de malware

Autores: Gui, Hairen; Tang, Ke; Shan, Zheng; Qiao, Meng; Zhang, Chunyan; Huang, Yizhao; Liu, Fudong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Aapfe: Aligned assembly pre-training function embedding para el análisis de malware


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Procesamiento de lenguaje natural
Datos binarios
Análisis de malware
Modelo de red neuronal
Incrustación
Pre-entrenamiento de ensamblaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
El uso del procesamiento de lenguaje natural para analizar datos binarios es un tema de investigación popular en el análisis de malware. Embedding de código binario en un vector es una base importante para construir un modelo de red neuronal de análisis binario. Las soluciones actuales se centran en incrustar instrucciones o secuencias de bloques básicos en vectores con modelos de redes neuronales recurrentes o utilizando un algoritmo de gráficos en gráficos de flujo de control o gráficos de flujo de control anotados para generar vectores de representación binaria. En el análisis de malware, la mayoría de estos estudios se centran únicamente en la información estructural única del binario y confían en un corpus. Es difícil que los vectores representen de manera efectiva la semántica y funcionalidad del código binario. Por lo tanto, este estudio propone la incrustación de funciones de pre-entrenamiento de ensamblaje alineado, un esquema de incrustación de funciones basado en un ensamblaje alineado de pre-entrenamiento. El esquema aplica de manera creativa la aumentación de datos y una estructura de red triplet al modelo de incrustación de entrenamiento. Cada subred extrae información de secuencia de instrucciones utilizando el mecanismo de autoatención y la información de estructura de gráfico de bloques básicos con el modelo de red de convolución de gráfico. Un modelo de incrustación se pre-entrena con el conjunto de datos de funciones de tripleta de ensamblaje alineado producido y posteriormente se evalúa en una serie de experimentos comparativos y evaluaciones de aplicaciones. Los resultados muestran que el modelo es superior a los métodos de vanguardia en términos de precisión, clasificación de precisión en el top N (p@N) y el área bajo la curva, verificando la efectividad del pre-entrenamiento de ensamblaje alineado y los métodos de extracción de información multinivel.

Otros recursos que podrían interesarte

Temas Virtualpro