Identificación de Autoría de Códigos Binarios y Desensamblados Utilizando Métodos de PLN
Autores: Romanov, Aleksandr; Kurtukova, Anna; Fedotova, Anastasia; Shelupanov, Alexander
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Identificación de Autoría de Códigos Binarios y Desensamblados Utilizando Métodos de PLN
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Códigos fuente
Código binario
Ciberseguridad
Identificación de autoría
Código máquina
Desensamblado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este artículo es parte de una serie destinada a determinar la autoría de los códigos fuente. Analizar el código binario es un aspecto crucial de la ciberseguridad, el desarrollo de software y la informática forense, particularmente en la identificación de autores de malware. Cualquier programa es código máquina, que puede ser desensamblado utilizando herramientas especializadas y analizado para la identificación de autoría, similar al texto en lenguaje natural utilizando métodos de Procesamiento de Lenguaje Natural. Proponemos un conjunto de fastText, máquina de soporte vectorial (SVM) y la red neuronal híbrida de los autores desarrollada en trabajos anteriores en esta investigación. La metodología mejorada fue evaluada utilizando un conjunto de datos de códigos fuente escritos en los lenguajes C y C++ recopilados de GitHub y Google Code Jam. Los códigos fuente recopilados fueron compilados en programas ejecutables y luego desensamblados utilizando herramientas de ingeniería inversa. La precisión promedio de identificación de autores para los códigos desensamblados utilizando la metodología mejorada supera 0.90. Además, la metodología fue probada en los códigos fuente, logrando una precisión promedio de 0.96 en casos simples y más de 0.85 en casos complejos. Estos resultados validan la efectividad de la metodología desarrollada y su aplicabilidad para resolver desafíos de ciberseguridad.
Descripción
Este artículo es parte de una serie destinada a determinar la autoría de los códigos fuente. Analizar el código binario es un aspecto crucial de la ciberseguridad, el desarrollo de software y la informática forense, particularmente en la identificación de autores de malware. Cualquier programa es código máquina, que puede ser desensamblado utilizando herramientas especializadas y analizado para la identificación de autoría, similar al texto en lenguaje natural utilizando métodos de Procesamiento de Lenguaje Natural. Proponemos un conjunto de fastText, máquina de soporte vectorial (SVM) y la red neuronal híbrida de los autores desarrollada en trabajos anteriores en esta investigación. La metodología mejorada fue evaluada utilizando un conjunto de datos de códigos fuente escritos en los lenguajes C y C++ recopilados de GitHub y Google Code Jam. Los códigos fuente recopilados fueron compilados en programas ejecutables y luego desensamblados utilizando herramientas de ingeniería inversa. La precisión promedio de identificación de autores para los códigos desensamblados utilizando la metodología mejorada supera 0.90. Además, la metodología fue probada en los códigos fuente, logrando una precisión promedio de 0.96 en casos simples y más de 0.85 en casos complejos. Estos resultados validan la efectividad de la metodología desarrollada y su aplicabilidad para resolver desafíos de ciberseguridad.