logo móvil
Contáctanos

MalBERTv2: modelo basado en BERT consciente del código para la identificación de malware

Autores: Rahali, Abir; Akhloufi, Moulay A.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

MalBERTv2: modelo basado en BERT consciente del código para la identificación de malware


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Amenazas de malware
Herramientas de ciberseguridad
Procesamiento de lenguaje natural
Modelos de NLP
Conjuntos de datos de Malware/Goodware
Modelo de lenguaje pre-entrenado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
Para mitigar de forma proactiva las amenazas de malware, las herramientas de ciberseguridad, como el software antivirus y antimalware, así como los firewalls, requieren actualizaciones frecuentes e implementación proactiva. Sin embargo, procesar las vastas cantidades de ejemplos de conjuntos de datos puede resultar abrumador cuando se depende únicamente de métodos tradicionales. En los flujos de trabajo de ciberseguridad, los avances recientes en modelos de procesamiento de lenguaje natural (NLP) pueden ayudar a detectar de forma proactiva diversas amenazas. En este documento, presentamos un enfoque novedoso para representar la relevancia y significado de los conjuntos de datos de Malware/Goodware (MG), a través del uso de un modelo de lenguaje pre-entrenado llamado MalBERTv2. Nuestro modelo está entrenado en conjuntos de datos públicamente disponibles, con un enfoque en el código fuente de las aplicaciones mediante la extracción de los archivos mejor clasificados que presentan la información más relevante. Estos archivos son luego pasados por un generador de características de pre-tokenización, y las palabras clave resultantes se utilizan para entrenar el tokenizador desde cero. Finalmente, aplicamos un clasificador utilizando representaciones de codificadores bidireccionales de transformadores (BERT) como una capa dentro del pipeline del modelo. El rendimiento de nuestro modelo se evalúa en diferentes conjuntos de datos, logrando un puntaje f1 ponderado que oscila entre 82% y 99%. Nuestros resultados demuestran la efectividad de nuestro enfoque para detectar de forma proactiva amenazas de malware utilizando técnicas de NLP.

Otros recursos que podrían interesarte

Temas Virtualpro