Aprendizaje Semi-Supervisado Basado en Grafos con Grafo Bipartito para Datos a Gran Escala y Predicción de Datos No Vistos
Autores: Alemi, Mohammad; Bosaghzadeh, Alireza; Dornaika, Fadi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje Semi-Supervisado Basado en Grafos con Grafo Bipartito para Datos a Gran Escala y Predicción de Datos No Vistos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje semi-supervisado basado en grafos
Datos etiquetados de outliers
Fronteras de decisión
Bases de datos a gran escala
Matrices de afinidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Recientemente, se ha dirigido una atención considerable hacia el aprendizaje semi-supervisado basado en grafos (GSSL) como un enfoque efectivo para el etiquetado de datos. A pesar del progreso logrado por las metodologías actuales, persisten varias limitaciones. En primer lugar, muchos estudios tratan todas las muestras por igual en términos de peso e influencia, ignorando la posible importancia aumentada de las muestras cercanas a los límites de decisión. En segundo lugar, la detección de datos etiquetados como atípicos es crucial, ya que puede impactar significativamente en el rendimiento del modelo. En tercer lugar, los modelos existentes a menudo tienen dificultades para predecir etiquetas para datos de prueba no vistos, lo que limita su utilidad en aplicaciones prácticas. Por último, la mayoría de los algoritmos basados en grafos dependen de matrices de afinidad que capturan similitudes por pares entre todos los puntos de datos, limitando así su escalabilidad a bases de datos a gran escala. En este artículo, proponemos un nuevo algoritmo GSSL adaptado para bases de datos a gran escala, aprovechando puntos de anclaje para mitigar los desafíos que plantean las grandes matrices de afinidad. Además, nuestro método mejora la influencia de los nodos cercanos a los límites de decisión al asignar diferentes pesos según su importancia y utilizar una función de mapeo del espacio de características al espacio de etiquetas. Aprovechar esta función de mapeo permite la predicción directa de etiquetas para muestras de prueba sin requerir procesos de aprendizaje iterativos. Las evaluaciones experimentales en dos conjuntos de datos extensos (Norb y Covtype) demuestran que nuestro enfoque es escalable y supera a los métodos GSSL existentes en términos de métricas de rendimiento.
Descripción
Recientemente, se ha dirigido una atención considerable hacia el aprendizaje semi-supervisado basado en grafos (GSSL) como un enfoque efectivo para el etiquetado de datos. A pesar del progreso logrado por las metodologías actuales, persisten varias limitaciones. En primer lugar, muchos estudios tratan todas las muestras por igual en términos de peso e influencia, ignorando la posible importancia aumentada de las muestras cercanas a los límites de decisión. En segundo lugar, la detección de datos etiquetados como atípicos es crucial, ya que puede impactar significativamente en el rendimiento del modelo. En tercer lugar, los modelos existentes a menudo tienen dificultades para predecir etiquetas para datos de prueba no vistos, lo que limita su utilidad en aplicaciones prácticas. Por último, la mayoría de los algoritmos basados en grafos dependen de matrices de afinidad que capturan similitudes por pares entre todos los puntos de datos, limitando así su escalabilidad a bases de datos a gran escala. En este artículo, proponemos un nuevo algoritmo GSSL adaptado para bases de datos a gran escala, aprovechando puntos de anclaje para mitigar los desafíos que plantean las grandes matrices de afinidad. Además, nuestro método mejora la influencia de los nodos cercanos a los límites de decisión al asignar diferentes pesos según su importancia y utilizar una función de mapeo del espacio de características al espacio de etiquetas. Aprovechar esta función de mapeo permite la predicción directa de etiquetas para muestras de prueba sin requerir procesos de aprendizaje iterativos. Las evaluaciones experimentales en dos conjuntos de datos extensos (Norb y Covtype) demuestran que nuestro enfoque es escalable y supera a los métodos GSSL existentes en términos de métricas de rendimiento.