Marco de inserción de grafo de conocimiento universal basado en muestreo negativo de alta calidad y ponderación
Autores: Zhang, Pengfei; Peng, Huang; Fang, Yang; Yang, Zongqiang; Hu, Yanli; Tan, Zhen; Xiao, Weidong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Marco de inserción de grafo de conocimiento universal basado en muestreo negativo de alta calidad y ponderación
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Entrenamiento del modelo
Muestreo negativo
Incrustación de grafos de conocimiento
Alta calidad
Ponderación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El enfoque tradicional de entrenamiento de modelos basado en muestreo negativo selecciona aleatoriamente una parte de las muestras negativas para el entrenamiento, lo que puede pasar por alto fácilmente muestras negativas importantes y afectar negativamente el entrenamiento de modelos de incrustación de grafos de conocimiento. Algunos investigadores han explorado marcos de entrenamiento de modelos sin muestreo que utilizan todas las tripletas no observadas como muestras negativas para mejorar el rendimiento del entrenamiento del modelo. Sin embargo, ambos métodos de entrenamiento introducen inevitablemente falsas muestras negativas y muestras negativas fáciles de separar que están lejos del límite de decisión del modelo, y no consideran los efectos adversos de entidades y relaciones de cola larga durante el entrenamiento, limitando así la mejora del rendimiento del entrenamiento del modelo. Para abordar este problema, proponemos un marco de incrustación de grafos de conocimiento universal basado en un muestreo negativo y ponderación de alta calidad, llamado HNSW-KGE. Primero, realizamos un preentrenamiento basado en el marco de entrenamiento sin muestreo NS-KGE para obtener rápidamente un conjunto inicial de representaciones vectoriales de incrustación relativamente de alta calidad para todas las entidades y relaciones. En segundo lugar, diseñamos una estrategia de construcción de un conjunto de muestras negativas candidatas que selecciona un cierto número de muestras negativas que no son falsas negativas ni negativas fáciles de separar para todas las tripletas positivas, basadas en los vectores de incrustación obtenidos del preentrenamiento. Esto garantiza la provisión de muestras negativas de alta calidad para el entrenamiento del modelo. Finalmente, aplicamos ponderación a la función de pérdida en función de la frecuencia de las entidades y relaciones que aparecen en las tripletas para mitigar los efectos adversos de las entidades y relaciones de cola larga en el entrenamiento del modelo. Experimentos realizados en conjuntos de datos de referencia FB15K237 y WN18RR utilizando varios modelos de incrustación de grafos de conocimiento demuestran que nuestro marco propuesto HNSW-KGE, basado en un muestreo negativo y ponderación de alta calidad, logra un mejor rendimiento de entrenamiento y muestra versatilidad, lo que lo hace aplicable a varios tipos de modelos de incrustación de conocimiento.
Descripción
El enfoque tradicional de entrenamiento de modelos basado en muestreo negativo selecciona aleatoriamente una parte de las muestras negativas para el entrenamiento, lo que puede pasar por alto fácilmente muestras negativas importantes y afectar negativamente el entrenamiento de modelos de incrustación de grafos de conocimiento. Algunos investigadores han explorado marcos de entrenamiento de modelos sin muestreo que utilizan todas las tripletas no observadas como muestras negativas para mejorar el rendimiento del entrenamiento del modelo. Sin embargo, ambos métodos de entrenamiento introducen inevitablemente falsas muestras negativas y muestras negativas fáciles de separar que están lejos del límite de decisión del modelo, y no consideran los efectos adversos de entidades y relaciones de cola larga durante el entrenamiento, limitando así la mejora del rendimiento del entrenamiento del modelo. Para abordar este problema, proponemos un marco de incrustación de grafos de conocimiento universal basado en un muestreo negativo y ponderación de alta calidad, llamado HNSW-KGE. Primero, realizamos un preentrenamiento basado en el marco de entrenamiento sin muestreo NS-KGE para obtener rápidamente un conjunto inicial de representaciones vectoriales de incrustación relativamente de alta calidad para todas las entidades y relaciones. En segundo lugar, diseñamos una estrategia de construcción de un conjunto de muestras negativas candidatas que selecciona un cierto número de muestras negativas que no son falsas negativas ni negativas fáciles de separar para todas las tripletas positivas, basadas en los vectores de incrustación obtenidos del preentrenamiento. Esto garantiza la provisión de muestras negativas de alta calidad para el entrenamiento del modelo. Finalmente, aplicamos ponderación a la función de pérdida en función de la frecuencia de las entidades y relaciones que aparecen en las tripletas para mitigar los efectos adversos de las entidades y relaciones de cola larga en el entrenamiento del modelo. Experimentos realizados en conjuntos de datos de referencia FB15K237 y WN18RR utilizando varios modelos de incrustación de grafos de conocimiento demuestran que nuestro marco propuesto HNSW-KGE, basado en un muestreo negativo y ponderación de alta calidad, logra un mejor rendimiento de entrenamiento y muestra versatilidad, lo que lo hace aplicable a varios tipos de modelos de incrustación de conocimiento.