logo móvil
Contáctanos

Bloqueo de Entidades Incremental sobre Datos de Transmisión Heterogéneos

Autores: Araújo, Tiago Brasileiro; Stefanidis, Kostas; Pires, Carlos Eduardo Santos; Nummenmaa, Jyrki; da Nóbrega, Thiago Pereira

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Bloqueo de Entidades Incremental sobre Datos de Transmisión Heterogéneos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistemas web
Resolución de entidades
Técnicas de bloqueo
Datos en streaming
Datos ruidosos
Infraestructura computacional distribuida

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los sistemas web se han convertido en una fuente valiosa de datos semiestructurados y en streaming. En este sentido, la Resolución de Entidades (ER) se ha convertido en una solución clave para integrar múltiples fuentes de datos o identificar similitudes entre elementos de datos, a saber, entidades. Para evitar los costos cuadráticos de la tarea de ER y mejorar la eficiencia, se suelen aplicar técnicas de bloqueo. Más allá de los desafíos tradicionales que enfrenta la ER y, en consecuencia, las técnicas de bloqueo, también hay desafíos relacionados con los datos en streaming, el procesamiento incremental y los datos ruidosos. Para abordarlos, proponemos una técnica de bloqueo agnóstica al esquema capaz de manejar datos ruidosos y en streaming de manera incremental a través de una infraestructura computacional distribuida. Hasta donde sabemos, hay una falta de técnicas de bloqueo que aborden estos desafíos simultáneamente. Este trabajo propone dos estrategias (selección de atributos y entidades vecinas top-n) para minimizar el consumo de recursos y mejorar la eficiencia del bloqueo. Además, este trabajo presenta un algoritmo tolerante al ruido, que minimiza el impacto de los datos ruidosos (por ejemplo, errores tipográficos y faltas de ortografía) en la efectividad del bloqueo. En nuestra evaluación experimental, utilizamos pares de fuentes de datos del mundo real, incluyendo un estudio de caso que involucra datos de Twitter y Google News. La técnica propuesta logra mejores resultados en términos de efectividad y eficiencia en comparación con la técnica de vanguardia (metablocking). Más precisamente, la aplicación de las dos estrategias sobre la técnica propuesta por sí sola mejora la eficiencia en un 56%, en promedio.

Otros recursos que podrían interesarte

Temas Virtualpro