Distancia de Jaccard Lempel-Ziv de multiconjunto
Autores: Aoki, Satoshi; Koga, Hisashi
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Distancia de Jaccard Lempel-Ziv de multiconjunto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Selección de características
Reconocimiento de patrones basado en compresión
LZJD
Clasificación de malware
Diccionario de compresión
MLZJD
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El rendimiento de la clasificación de patrones se ve afectado significativamente por la selección de características. Sin embargo, para aplicaciones de seguridad, seleccionar características adecuadas es difícil, ya que el software malicioso cambia continuamente sus características. Así, el reconocimiento de patrones basado en compresión ha atraído mucha atención porque no requiere una selección explícita de características para diseñar medidas de distancia adecuadas. LZJD (Distancia Jaccard de Lempel-Ziv), en particular, ha sido útil para la clasificación de malware, ya que calcula distancias de compresión sin comprimir realmente los objetos y es adecuado para manejar archivos grandes como el malware. LZJD extrae un diccionario de compresión para cada objeto por adelantado y estima una similitud entre dos objetos comparando sus diccionarios de compresión. Sin embargo, LZJD ignora la similitud entre palabras en un diccionario de compresión. Como resultado, incluso si el diccionario tiene muchas palabras similares, se procesan simplemente como palabras diferentes. Para aprovechar la similitud entre palabras, proponemos eliminar los últimos caracteres de las palabras en el diccionario y unificar palabras similares que comparten el mismo prefijo. Esta unificación de palabras convierte el diccionario de compresión en un multiconjunto de palabras. Por lo tanto, nuestra distancia de compresión se llama MLZJD (Multiconjunto LZJD). Además, la unificación de palabras en MLZJD disminuye el número de tipos de palabras en los diccionarios de compresión y contribuye a acelerar el cálculo de la distancia. Mostramos experimentalmente que MLZJD reduce a la mitad el tiempo de ejecución en comparación con LZJD, mientras que apenas afecta la precisión de la clasificación. Incluso en el caso de que las distancias de compresión se aproximen con Min-Hash, MLZJD logra un tiempo de ejecución mucho más corto que LZJD, manteniendo casi la misma precisión de clasificación que LZJD.
Descripción
El rendimiento de la clasificación de patrones se ve afectado significativamente por la selección de características. Sin embargo, para aplicaciones de seguridad, seleccionar características adecuadas es difícil, ya que el software malicioso cambia continuamente sus características. Así, el reconocimiento de patrones basado en compresión ha atraído mucha atención porque no requiere una selección explícita de características para diseñar medidas de distancia adecuadas. LZJD (Distancia Jaccard de Lempel-Ziv), en particular, ha sido útil para la clasificación de malware, ya que calcula distancias de compresión sin comprimir realmente los objetos y es adecuado para manejar archivos grandes como el malware. LZJD extrae un diccionario de compresión para cada objeto por adelantado y estima una similitud entre dos objetos comparando sus diccionarios de compresión. Sin embargo, LZJD ignora la similitud entre palabras en un diccionario de compresión. Como resultado, incluso si el diccionario tiene muchas palabras similares, se procesan simplemente como palabras diferentes. Para aprovechar la similitud entre palabras, proponemos eliminar los últimos caracteres de las palabras en el diccionario y unificar palabras similares que comparten el mismo prefijo. Esta unificación de palabras convierte el diccionario de compresión en un multiconjunto de palabras. Por lo tanto, nuestra distancia de compresión se llama MLZJD (Multiconjunto LZJD). Además, la unificación de palabras en MLZJD disminuye el número de tipos de palabras en los diccionarios de compresión y contribuye a acelerar el cálculo de la distancia. Mostramos experimentalmente que MLZJD reduce a la mitad el tiempo de ejecución en comparación con LZJD, mientras que apenas afecta la precisión de la clasificación. Incluso en el caso de que las distancias de compresión se aproximen con Min-Hash, MLZJD logra un tiempo de ejecución mucho más corto que LZJD, manteniendo casi la misma precisión de clasificación que LZJD.