Primeros pasos hacia la deduplicación adversarial basada en datos
Autores: Paredes, Jose N.; Simari, Gerardo I.; Martinez, Maria Vanina; Falappa, Marcelo A.
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Primeros pasos hacia la deduplicación adversarial basada en datos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Bases de datos tradicionales
Problema de resolución de entidades
Deduplicación
Objetos virtuales
Actores maliciosos
Foros de hackers
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En las bases de datos tradicionales, el problema de resolución de entidades (que también se conoce como deduplicación) se refiere a la tarea de mapear múltiples manifestaciones de objetos virtuales a sus correspondientes entidades del mundo real. Al abordar este problema, tanto en teoría como en práctica, se asume ampliamente que tales conjuntos de objetos virtuales aparecen como resultado de errores clericales, transliteraciones, atributos faltantes o actualizados, abreviaturas, y así sucesivamente. En este documento, abordamos este problema bajo la suposición de que esta situación es causada por actores maliciosos que operan en dominios en los que no desean ser identificados, como foros de hackers y mercados en los que los participantes están motivados para permanecer semi-anónimos (aunque desean mantener en secreto sus verdaderas identidades, les resulta útil que los clientes identifiquen sus productos y servicios). Por lo tanto, nos encontramos ante un problema diferente, e incluso más desafiante, que denominamos deduplicación adversarial. En este documento, estudiamos este problema a través de ejemplos que surgen de datos del mundo real en foros de hackers maliciosos y mercados que surgen de colaboraciones con una empresa de inteligencia sobre amenazas cibernéticas centrada en comprender este tipo de comportamiento. Argumentamos que es muy difícil, si no imposible, encontrar datos de verdad objetiva sobre los cuales construir soluciones a este problema, y desarrollamos un conjunto de experimentos preliminares basados en el entrenamiento de clasificadores de aprendizaje automático que aprovechan el análisis de texto para detectar posibles casos de entidades duplicadas. Nuestros resultados son alentadores como un primer paso hacia la construcción de herramientas que los analistas humanos pueden utilizar para mejorar sus capacidades en la lucha contra las amenazas cibernéticas.
Descripción
En las bases de datos tradicionales, el problema de resolución de entidades (que también se conoce como deduplicación) se refiere a la tarea de mapear múltiples manifestaciones de objetos virtuales a sus correspondientes entidades del mundo real. Al abordar este problema, tanto en teoría como en práctica, se asume ampliamente que tales conjuntos de objetos virtuales aparecen como resultado de errores clericales, transliteraciones, atributos faltantes o actualizados, abreviaturas, y así sucesivamente. En este documento, abordamos este problema bajo la suposición de que esta situación es causada por actores maliciosos que operan en dominios en los que no desean ser identificados, como foros de hackers y mercados en los que los participantes están motivados para permanecer semi-anónimos (aunque desean mantener en secreto sus verdaderas identidades, les resulta útil que los clientes identifiquen sus productos y servicios). Por lo tanto, nos encontramos ante un problema diferente, e incluso más desafiante, que denominamos deduplicación adversarial. En este documento, estudiamos este problema a través de ejemplos que surgen de datos del mundo real en foros de hackers maliciosos y mercados que surgen de colaboraciones con una empresa de inteligencia sobre amenazas cibernéticas centrada en comprender este tipo de comportamiento. Argumentamos que es muy difícil, si no imposible, encontrar datos de verdad objetiva sobre los cuales construir soluciones a este problema, y desarrollamos un conjunto de experimentos preliminares basados en el entrenamiento de clasificadores de aprendizaje automático que aprovechan el análisis de texto para detectar posibles casos de entidades duplicadas. Nuestros resultados son alentadores como un primer paso hacia la construcción de herramientas que los analistas humanos pueden utilizar para mejorar sus capacidades en la lucha contra las amenazas cibernéticas.