Bloqueo de Entidades Incremental sobre Datos de Transmisión Heterogéneos
Autores: Araújo, Tiago Brasileiro; Stefanidis, Kostas; Pires, Carlos Eduardo Santos; Nummenmaa, Jyrki; da Nóbrega, Thiago Pereira
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Bloqueo de Entidades Incremental sobre Datos de Transmisión Heterogéneos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistemas web
Resolución de entidades
Técnicas de bloqueo
Datos en streaming
Datos ruidosos
Infraestructura computacional distribuida
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los sistemas web se han convertido en una fuente valiosa de datos semiestructurados y en streaming. En este sentido, la Resolución de Entidades (ER) se ha convertido en una solución clave para integrar múltiples fuentes de datos o identificar similitudes entre elementos de datos, a saber, entidades. Para evitar los costos cuadráticos de la tarea de ER y mejorar la eficiencia, se suelen aplicar técnicas de bloqueo. Más allá de los desafíos tradicionales que enfrenta la ER y, en consecuencia, las técnicas de bloqueo, también hay desafíos relacionados con los datos en streaming, el procesamiento incremental y los datos ruidosos. Para abordarlos, proponemos una técnica de bloqueo agnóstica al esquema capaz de manejar datos ruidosos y en streaming de manera incremental a través de una infraestructura computacional distribuida. Hasta donde sabemos, hay una falta de técnicas de bloqueo que aborden estos desafíos simultáneamente. Este trabajo propone dos estrategias (selección de atributos y entidades vecinas top-n) para minimizar el consumo de recursos y mejorar la eficiencia del bloqueo. Además, este trabajo presenta un algoritmo tolerante al ruido, que minimiza el impacto de los datos ruidosos (por ejemplo, errores tipográficos y faltas de ortografía) en la efectividad del bloqueo. En nuestra evaluación experimental, utilizamos pares de fuentes de datos del mundo real, incluyendo un estudio de caso que involucra datos de Twitter y Google News. La técnica propuesta logra mejores resultados en términos de efectividad y eficiencia en comparación con la técnica de vanguardia (metablocking). Más precisamente, la aplicación de las dos estrategias sobre la técnica propuesta por sí sola mejora la eficiencia en un 56%, en promedio.
Descripción
Los sistemas web se han convertido en una fuente valiosa de datos semiestructurados y en streaming. En este sentido, la Resolución de Entidades (ER) se ha convertido en una solución clave para integrar múltiples fuentes de datos o identificar similitudes entre elementos de datos, a saber, entidades. Para evitar los costos cuadráticos de la tarea de ER y mejorar la eficiencia, se suelen aplicar técnicas de bloqueo. Más allá de los desafíos tradicionales que enfrenta la ER y, en consecuencia, las técnicas de bloqueo, también hay desafíos relacionados con los datos en streaming, el procesamiento incremental y los datos ruidosos. Para abordarlos, proponemos una técnica de bloqueo agnóstica al esquema capaz de manejar datos ruidosos y en streaming de manera incremental a través de una infraestructura computacional distribuida. Hasta donde sabemos, hay una falta de técnicas de bloqueo que aborden estos desafíos simultáneamente. Este trabajo propone dos estrategias (selección de atributos y entidades vecinas top-n) para minimizar el consumo de recursos y mejorar la eficiencia del bloqueo. Además, este trabajo presenta un algoritmo tolerante al ruido, que minimiza el impacto de los datos ruidosos (por ejemplo, errores tipográficos y faltas de ortografía) en la efectividad del bloqueo. En nuestra evaluación experimental, utilizamos pares de fuentes de datos del mundo real, incluyendo un estudio de caso que involucra datos de Twitter y Google News. La técnica propuesta logra mejores resultados en términos de efectividad y eficiencia en comparación con la técnica de vanguardia (metablocking). Más precisamente, la aplicación de las dos estrategias sobre la técnica propuesta por sí sola mejora la eficiencia en un 56%, en promedio.