MLP-Mixer-Autoencoder: Una Arquitectura de Conjunto Ligera para la Clasificación de Malware
Autores: Dao, Tuan Van; Sato, Hiroshi; Kubo, Masao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
MLP-Mixer-Autoencoder: Una Arquitectura de Conjunto Ligera para la Clasificación de Malware
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Malware
Generadores
Aprendizaje automático
Redes neuronales convolucionales
Autoencoder
Arquitectura de conjunto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El malware se está convirtiendo en una herramienta de apoyo efectiva no solo para hackers profesionales, sino también para aficionados. Debido al apoyo de generadores de malware gratuitos, cualquiera puede crear fácilmente varios tipos de código malicioso. La creciente cantidad de malware novedoso es un problema global diario. Los métodos actuales basados en aprendizaje automático, especialmente los enfoques de clasificación de malware basados en imágenes, están atrayendo una atención significativa debido a su precisión y costo computacional. Las Redes Neuronales Convolucionales se aplican ampliamente en la clasificación de malware; sin embargo, la CNN necesita una arquitectura profunda y GPUs para el procesamiento paralelo para lograr un alto rendimiento. En contraste, un modelo simple contenía únicamente un Perceptrón Multicapa llamado MLP-mixer con menos hiperparámetros que puede ejecutarse en varios entornos sin GPUs y no está muy lejos de la CNN en términos de rendimiento. En este estudio, intentamos aplicar un Autoencoder (AE) para mejorar el rendimiento del MLP-mixer. El AE se utiliza ampliamente en varias aplicaciones como reducción de dimensionalidad para filtrar el ruido e identificar elementos cruciales de los datos de entrada. Aprovechando esta ventaja del AE, proponemos una arquitectura de conjunto ligera combinando un MLP-mixer personalizado y un Autoencoder para refinar las características extraídas del MLP-mixer con la arquitectura de codificador-decodificador del autoencoder. Logramos un rendimiento superior a través de varios experimentos en comparación con otras técnicas de vanguardia utilizando los conjuntos de datos Malimg y Malheur, que contienen 9939 (25 familias de malware) y 3133 muestras variantes (24 familias de malware).
Descripción
El malware se está convirtiendo en una herramienta de apoyo efectiva no solo para hackers profesionales, sino también para aficionados. Debido al apoyo de generadores de malware gratuitos, cualquiera puede crear fácilmente varios tipos de código malicioso. La creciente cantidad de malware novedoso es un problema global diario. Los métodos actuales basados en aprendizaje automático, especialmente los enfoques de clasificación de malware basados en imágenes, están atrayendo una atención significativa debido a su precisión y costo computacional. Las Redes Neuronales Convolucionales se aplican ampliamente en la clasificación de malware; sin embargo, la CNN necesita una arquitectura profunda y GPUs para el procesamiento paralelo para lograr un alto rendimiento. En contraste, un modelo simple contenía únicamente un Perceptrón Multicapa llamado MLP-mixer con menos hiperparámetros que puede ejecutarse en varios entornos sin GPUs y no está muy lejos de la CNN en términos de rendimiento. En este estudio, intentamos aplicar un Autoencoder (AE) para mejorar el rendimiento del MLP-mixer. El AE se utiliza ampliamente en varias aplicaciones como reducción de dimensionalidad para filtrar el ruido e identificar elementos cruciales de los datos de entrada. Aprovechando esta ventaja del AE, proponemos una arquitectura de conjunto ligera combinando un MLP-mixer personalizado y un Autoencoder para refinar las características extraídas del MLP-mixer con la arquitectura de codificador-decodificador del autoencoder. Logramos un rendimiento superior a través de varios experimentos en comparación con otras técnicas de vanguardia utilizando los conjuntos de datos Malimg y Malheur, que contienen 9939 (25 familias de malware) y 3133 muestras variantes (24 familias de malware).