logo móvil
Contáctanos

Primeros pasos hacia la deduplicación adversarial basada en datos

Autores: Paredes, Jose N.; Simari, Gerardo I.; Martinez, Maria Vanina; Falappa, Marcelo A.

Idioma: Inglés

Editor: MDPI

Año: 2018

Descargar PDF

Acceso abierto

Artículo científico
2018

Primeros pasos hacia la deduplicación adversarial basada en datos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Bases de datos tradicionales
Problema de resolución de entidades
Deduplicación
Objetos virtuales
Actores maliciosos
Foros de hackers

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En las bases de datos tradicionales, el problema de resolución de entidades (que también se conoce como deduplicación) se refiere a la tarea de mapear múltiples manifestaciones de objetos virtuales a sus correspondientes entidades del mundo real. Al abordar este problema, tanto en teoría como en práctica, se asume ampliamente que tales conjuntos de objetos virtuales aparecen como resultado de errores clericales, transliteraciones, atributos faltantes o actualizados, abreviaturas, y así sucesivamente. En este documento, abordamos este problema bajo la suposición de que esta situación es causada por actores maliciosos que operan en dominios en los que no desean ser identificados, como foros de hackers y mercados en los que los participantes están motivados para permanecer semi-anónimos (aunque desean mantener en secreto sus verdaderas identidades, les resulta útil que los clientes identifiquen sus productos y servicios). Por lo tanto, nos encontramos ante un problema diferente, e incluso más desafiante, que denominamos deduplicación adversarial. En este documento, estudiamos este problema a través de ejemplos que surgen de datos del mundo real en foros de hackers maliciosos y mercados que surgen de colaboraciones con una empresa de inteligencia sobre amenazas cibernéticas centrada en comprender este tipo de comportamiento. Argumentamos que es muy difícil, si no imposible, encontrar datos de verdad objetiva sobre los cuales construir soluciones a este problema, y desarrollamos un conjunto de experimentos preliminares basados en el entrenamiento de clasificadores de aprendizaje automático que aprovechan el análisis de texto para detectar posibles casos de entidades duplicadas. Nuestros resultados son alentadores como un primer paso hacia la construcción de herramientas que los analistas humanos pueden utilizar para mejorar sus capacidades en la lucha contra las amenazas cibernéticas.

Otros recursos que podrían interesarte

Temas Virtualpro