Un algoritmo de coincidencia aproximada por byte mejorado adecuado para archivos de tamaños diferentes
Autores: Gayoso Martínez, Víctor; Hernández-Álvarez, Fernando; Hernández Encinas, Luis
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un algoritmo de coincidencia aproximada por byte mejorado adecuado para archivos de tamaños diferentes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Informática forense
Recuperación de datos
Funciones de coincidencia aproximada
Ssdeep
Sdhash
LZJD
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
El objetivo de la informática forense es recuperar e investigar fragmentos de datos encontrados en dispositivos digitales, analizando en el proceso su relación con otros fragmentos de datos del mismo dispositivo o de diferentes. Las funciones de coincidencia aproximada, también llamadas funciones de hash de similitud o difusas, intentan lograr ese objetivo comparando archivos y determinando su semejanza. En este sentido, ssdeep, sdhash y LZJD son actualmente algunas de las funciones más conocidas que abordan este problema. Sin embargo, aunque esas aplicaciones son útiles y confiables, también tienen limitaciones importantes (principalmente, la incapacidad de comparar archivos de tamaños muy diferentes en el caso de ssdeep y LZJD, el tamaño excesivo de las firmas de sdhash y LZJD, y la ocasional escasa relación entre la puntuación de comparación obtenida y el contenido real de los archivos al usar las tres aplicaciones). En este artículo, proponemos un nuevo procedimiento de generación de firmas y un algoritmo para comparar dos archivos a través de sus firmas digitales. Aunque nuestro diseño se basa en ssdeep, mejora algunas de sus limitaciones y satisface los requisitos que las aplicaciones de coincidencia aproximada deben cumplir. A través de un conjunto de pruebas ad hoc y estándar basadas en el marco FRASH, es posible afirmar que el algoritmo propuesto presenta notables fortalezas de detección en general y es adecuado para comparar archivos de tamaños muy diferentes. Se incluye una descripción completa de la implementación multi-hilo del algoritmo, junto con todas las pruebas empleadas para comparar esta propuesta con ssdeep, sdhash y LZJD.
Descripción
El objetivo de la informática forense es recuperar e investigar fragmentos de datos encontrados en dispositivos digitales, analizando en el proceso su relación con otros fragmentos de datos del mismo dispositivo o de diferentes. Las funciones de coincidencia aproximada, también llamadas funciones de hash de similitud o difusas, intentan lograr ese objetivo comparando archivos y determinando su semejanza. En este sentido, ssdeep, sdhash y LZJD son actualmente algunas de las funciones más conocidas que abordan este problema. Sin embargo, aunque esas aplicaciones son útiles y confiables, también tienen limitaciones importantes (principalmente, la incapacidad de comparar archivos de tamaños muy diferentes en el caso de ssdeep y LZJD, el tamaño excesivo de las firmas de sdhash y LZJD, y la ocasional escasa relación entre la puntuación de comparación obtenida y el contenido real de los archivos al usar las tres aplicaciones). En este artículo, proponemos un nuevo procedimiento de generación de firmas y un algoritmo para comparar dos archivos a través de sus firmas digitales. Aunque nuestro diseño se basa en ssdeep, mejora algunas de sus limitaciones y satisface los requisitos que las aplicaciones de coincidencia aproximada deben cumplir. A través de un conjunto de pruebas ad hoc y estándar basadas en el marco FRASH, es posible afirmar que el algoritmo propuesto presenta notables fortalezas de detección en general y es adecuado para comparar archivos de tamaños muy diferentes. Se incluye una descripción completa de la implementación multi-hilo del algoritmo, junto con todas las pruebas empleadas para comparar esta propuesta con ssdeep, sdhash y LZJD.