logo móvil
Contáctanos

Aprendizaje Semi-Supervisado Basado en Grafos con Grafo Bipartito para Datos a Gran Escala y Predicción de Datos No Vistos

Autores: Alemi, Mohammad; Bosaghzadeh, Alireza; Dornaika, Fadi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprendizaje Semi-Supervisado Basado en Grafos con Grafo Bipartito para Datos a Gran Escala y Predicción de Datos No Vistos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje semi-supervisado basado en grafos
Datos etiquetados de outliers
Fronteras de decisión
Bases de datos a gran escala
Matrices de afinidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Recientemente, se ha dirigido una atención considerable hacia el aprendizaje semi-supervisado basado en grafos (GSSL) como un enfoque efectivo para el etiquetado de datos. A pesar del progreso logrado por las metodologías actuales, persisten varias limitaciones. En primer lugar, muchos estudios tratan todas las muestras por igual en términos de peso e influencia, ignorando la posible importancia aumentada de las muestras cercanas a los límites de decisión. En segundo lugar, la detección de datos etiquetados como atípicos es crucial, ya que puede impactar significativamente en el rendimiento del modelo. En tercer lugar, los modelos existentes a menudo tienen dificultades para predecir etiquetas para datos de prueba no vistos, lo que limita su utilidad en aplicaciones prácticas. Por último, la mayoría de los algoritmos basados en grafos dependen de matrices de afinidad que capturan similitudes por pares entre todos los puntos de datos, limitando así su escalabilidad a bases de datos a gran escala. En este artículo, proponemos un nuevo algoritmo GSSL adaptado para bases de datos a gran escala, aprovechando puntos de anclaje para mitigar los desafíos que plantean las grandes matrices de afinidad. Además, nuestro método mejora la influencia de los nodos cercanos a los límites de decisión al asignar diferentes pesos según su importancia y utilizar una función de mapeo del espacio de características al espacio de etiquetas. Aprovechar esta función de mapeo permite la predicción directa de etiquetas para muestras de prueba sin requerir procesos de aprendizaje iterativos. Las evaluaciones experimentales en dos conjuntos de datos extensos (Norb y Covtype) demuestran que nuestro enfoque es escalable y supera a los métodos GSSL existentes en términos de métricas de rendimiento.

Otros recursos que podrían interesarte

Temas Virtualpro