Bloqueo DNF no supervisado para el enlace eficiente de gráficos de conocimiento y tablas
Autores: Kejriwal, Mayank
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Bloqueo DNF no supervisado para el enlace eficiente de gráficos de conocimiento y tablas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Resolución de entidades
Grafos de conocimiento
Bloqueo
Similitud
Ahorros computacionales
Pipeline algorítmico no supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La Resolución de Entidades (ER) es el problema de identificar pares de entidades co-referentes a través de conjuntos de datos, incluidos los gráficos de conocimiento (KGs). ER es un requisito importante en muchas aplicaciones de búsqueda y análisis de KGs, con un flujo de trabajo típico que comprende dos pasos. En el primer paso de "bloqueo", las entidades se asignan a bloques. El bloqueo es necesario para evitar la comparación de todos los posibles pares de entidades, ya que (en el segundo paso de "similitud") solo se emparejan y comparan las entidades dentro de los bloques, lo que permite un ahorro computacional significativo con una pérdida mínima de rendimiento. Desafortunadamente, aprender un esquema de bloqueo de manera no supervisada es un problema no trivial, y no se ha explorado adecuadamente para conjuntos de datos heterogéneos y semi-estructurados, como los que son prevalentes en aplicaciones industriales y web. Este artículo presenta un pipeline algorítmico no supervisado para aprender esquemas de bloqueo en Forma Normal Disyuntiva (DNF) en KGs, así como en tablas estructuralmente heterogéneas que pueden no compartir un esquema común. Evaluamos el enfoque en seis pares de conjuntos de datos del mundo real y mostramos que es competitivo con líneas base supervisadas y semi-supervisadas.
Descripción
La Resolución de Entidades (ER) es el problema de identificar pares de entidades co-referentes a través de conjuntos de datos, incluidos los gráficos de conocimiento (KGs). ER es un requisito importante en muchas aplicaciones de búsqueda y análisis de KGs, con un flujo de trabajo típico que comprende dos pasos. En el primer paso de "bloqueo", las entidades se asignan a bloques. El bloqueo es necesario para evitar la comparación de todos los posibles pares de entidades, ya que (en el segundo paso de "similitud") solo se emparejan y comparan las entidades dentro de los bloques, lo que permite un ahorro computacional significativo con una pérdida mínima de rendimiento. Desafortunadamente, aprender un esquema de bloqueo de manera no supervisada es un problema no trivial, y no se ha explorado adecuadamente para conjuntos de datos heterogéneos y semi-estructurados, como los que son prevalentes en aplicaciones industriales y web. Este artículo presenta un pipeline algorítmico no supervisado para aprender esquemas de bloqueo en Forma Normal Disyuntiva (DNF) en KGs, así como en tablas estructuralmente heterogéneas que pueden no compartir un esquema común. Evaluamos el enfoque en seis pares de conjuntos de datos del mundo real y mostramos que es competitivo con líneas base supervisadas y semi-supervisadas.