Distancia de Jaccard Lempel-Ziv de multiconjunto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Distancia de Jaccard Lempel-Ziv de multiconjunto

Autores: Aoki, Satoshi; Koga, Hisashi

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Distancia de Jaccard Lempel-Ziv de multiconjunto

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Selección de características

Reconocimiento de patrones basado en compresión

LZJD

Clasificación de malware

Diccionario de compresión

MLZJD

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El rendimiento de la clasificación de patrones se ve afectado significativamente por la selección de características. Sin embargo, para aplicaciones de seguridad, seleccionar características adecuadas es difícil, ya que el software malicioso cambia continuamente sus características. Así, el reconocimiento de patrones basado en compresión ha atraído mucha atención porque no requiere una selección explícita de características para diseñar medidas de distancia adecuadas. LZJD (Distancia Jaccard de Lempel-Ziv), en particular, ha sido útil para la clasificación de malware, ya que calcula distancias de compresión sin comprimir realmente los objetos y es adecuado para manejar archivos grandes como el malware. LZJD extrae un diccionario de compresión para cada objeto por adelantado y estima una similitud entre dos objetos comparando sus diccionarios de compresión. Sin embargo, LZJD ignora la similitud entre palabras en un diccionario de compresión. Como resultado, incluso si el diccionario tiene muchas palabras similares, se procesan simplemente como palabras diferentes. Para aprovechar la similitud entre palabras, proponemos eliminar los últimos caracteres de las palabras en el diccionario y unificar palabras similares que comparten el mismo prefijo. Esta unificación de palabras convierte el diccionario de compresión en un multiconjunto de palabras. Por lo tanto, nuestra distancia de compresión se llama MLZJD (Multiconjunto LZJD). Además, la unificación de palabras en MLZJD disminuye el número de tipos de palabras en los diccionarios de compresión y contribuye a acelerar el cálculo de la distancia. Mostramos experimentalmente que MLZJD reduce a la mitad el tiempo de ejecución en comparación con LZJD, mientras que apenas afecta la precisión de la clasificación. Incluso en el caso de que las distancias de compresión se aproximen con Min-Hash, MLZJD logra un tiempo de ejecución mucho más corto que LZJD, manteniendo casi la misma precisión de clasificación que LZJD.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro