Aprendizaje positivo-no etiquetado para la predicción de enlaces de red
Autores: Gan, Shengfeng; Alshahrani, Mohammed; Liu, Shichao
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje positivo-no etiquetado para la predicción de enlaces de red
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Predicción de enlaces
Minería de datos de redes
Clasificación supervisada
Aprendizaje positivo-no etiquetado
Representación de redes
Precisión de predicción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La predicción de enlaces es un problema importante en la minería de datos de redes, que se dedica a predecir la relación potencial entre nodos en la red. Normalmente, la predicción de enlaces de red basada en clasificación supervisada se entrenará en un conjunto de datos que consiste en un conjunto de muestras positivas y un conjunto de muestras negativas. Sin embargo, los conjuntos de datos de entrenamiento bien etiquetados con anotaciones positivas y negativas siempre son insuficientes en escenarios del mundo real, y los conjuntos de datos contienen una gran cantidad de muestras no etiquetadas que pueden obstaculizar el rendimiento del modelo. Para abordar este problema, proponemos un marco de aprendizaje positivo-no etiquetado con representación de red para la predicción de enlaces de red utilizando solo muestras positivas y muestras no etiquetadas. Primero aprendemos vectores de representación de nodos utilizando un método de representación de red. A continuación, concatenamos los vectores de representación de pares de nodos y luego los introducimos en diferentes clasificadores para predecir si el enlace existe o no. Para mitigar el desequilibrio de datos y mejorar la precisión de la predicción, adoptamos tres tipos de estrategias de aprendizaje positivo-no etiquetado (PU) para mejorar el rendimiento de la predicción utilizando estimación de clasificadores tradicionales, estrategia de bagging y muestreo negativo confiable. Realizamos experimentos en tres conjuntos de datos para comparar diferentes métodos de aprendizaje PU y discutir su influencia en los resultados de la predicción. Los resultados experimentales demuestran que el aprendizaje PU tiene un impacto positivo en el rendimiento predictivo y los efectos de promoción varían con diferentes estructuras de red.
Descripción
La predicción de enlaces es un problema importante en la minería de datos de redes, que se dedica a predecir la relación potencial entre nodos en la red. Normalmente, la predicción de enlaces de red basada en clasificación supervisada se entrenará en un conjunto de datos que consiste en un conjunto de muestras positivas y un conjunto de muestras negativas. Sin embargo, los conjuntos de datos de entrenamiento bien etiquetados con anotaciones positivas y negativas siempre son insuficientes en escenarios del mundo real, y los conjuntos de datos contienen una gran cantidad de muestras no etiquetadas que pueden obstaculizar el rendimiento del modelo. Para abordar este problema, proponemos un marco de aprendizaje positivo-no etiquetado con representación de red para la predicción de enlaces de red utilizando solo muestras positivas y muestras no etiquetadas. Primero aprendemos vectores de representación de nodos utilizando un método de representación de red. A continuación, concatenamos los vectores de representación de pares de nodos y luego los introducimos en diferentes clasificadores para predecir si el enlace existe o no. Para mitigar el desequilibrio de datos y mejorar la precisión de la predicción, adoptamos tres tipos de estrategias de aprendizaje positivo-no etiquetado (PU) para mejorar el rendimiento de la predicción utilizando estimación de clasificadores tradicionales, estrategia de bagging y muestreo negativo confiable. Realizamos experimentos en tres conjuntos de datos para comparar diferentes métodos de aprendizaje PU y discutir su influencia en los resultados de la predicción. Los resultados experimentales demuestran que el aprendizaje PU tiene un impacto positivo en el rendimiento predictivo y los efectos de promoción varían con diferentes estructuras de red.