MalBERTv2: modelo basado en BERT consciente del código para la identificación de malware

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

MalBERTv2: modelo basado en BERT consciente del código para la identificación de malware

Autores: Rahali, Abir; Akhloufi, Moulay A.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

MalBERTv2: modelo basado en BERT consciente del código para la identificación de malware

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Amenazas de malware

Herramientas de ciberseguridad

Procesamiento de lenguaje natural

Modelos de NLP

Conjuntos de datos de Malware/Goodware

Modelo de lenguaje pre-entrenado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

Para mitigar de forma proactiva las amenazas de malware, las herramientas de ciberseguridad, como el software antivirus y antimalware, así como los firewalls, requieren actualizaciones frecuentes e implementación proactiva. Sin embargo, procesar las vastas cantidades de ejemplos de conjuntos de datos puede resultar abrumador cuando se depende únicamente de métodos tradicionales. En los flujos de trabajo de ciberseguridad, los avances recientes en modelos de procesamiento de lenguaje natural (NLP) pueden ayudar a detectar de forma proactiva diversas amenazas. En este documento, presentamos un enfoque novedoso para representar la relevancia y significado de los conjuntos de datos de Malware/Goodware (MG), a través del uso de un modelo de lenguaje pre-entrenado llamado MalBERTv2. Nuestro modelo está entrenado en conjuntos de datos públicamente disponibles, con un enfoque en el código fuente de las aplicaciones mediante la extracción de los archivos mejor clasificados que presentan la información más relevante. Estos archivos son luego pasados por un generador de características de pre-tokenización, y las palabras clave resultantes se utilizan para entrenar el tokenizador desde cero. Finalmente, aplicamos un clasificador utilizando representaciones de codificadores bidireccionales de transformadores (BERT) como una capa dentro del pipeline del modelo. El rendimiento de nuestro modelo se evalúa en diferentes conjuntos de datos, logrando un puntaje f1 ponderado que oscila entre 82% y 99%. Nuestros resultados demuestran la efectividad de nuestro enfoque para detectar de forma proactiva amenazas de malware utilizando técnicas de NLP.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro