Interpretando redes convolucionales profundas de grafos con perspectiva espectral
Autores: Zhang, Sisi; Li, Fan; Zhang, Tiancheng; Yu, Ge
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Interpretando redes convolucionales profundas de grafos con perspectiva espectral
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Red de convolución gráfica
Degradación del rendimiento
Sobre-alisado
Matrices de propagación
Componente de transformación
Matriz de pesos del modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
La arquitectura de la red convolucional de grafos (GCN) es la base de muchas redes neuronales y se ha utilizado ampliamente en el procesamiento de datos estructurados en grafo. Al tratar con datos grandes y dispersos, a menudo se requieren modelos GCN más profundos. Sin embargo, los modelos sufren de degradación del rendimiento a medida que aumenta el número de capas. La atribución principal de la investigación actual es el exceso de suavizado, y también hay desvanecimiento de gradientes, dificultades de entrenamiento, etc., por lo que no se puede llegar a un consenso. En este documento, analizamos teóricamente el problema de degradación al adoptar la teoría espectral de grafos para considerar globalmente los componentes de propagación y transformación de la arquitectura de GCN, y concluimos que el problema de exceso de suavizado causado por las matrices de propagación no es el factor clave para la degradación del rendimiento. Posteriormente, además de utilizar métodos experimentales convencionales, propusimos una estrategia de análisis experimental bajo la guía de la teoría de matrices aleatorias para analizar la distribución de valores singulares de la matriz de pesos del modelo. Concluimos que el factor clave que conduce a la degradación del rendimiento del modelo es el componente de transformación. En el contexto de la falta de consenso sobre el problema de degradación del rendimiento del modelo, el documento propone una estrategia de análisis sistemático, así como evidencia teórica y empírica.
Descripción
La arquitectura de la red convolucional de grafos (GCN) es la base de muchas redes neuronales y se ha utilizado ampliamente en el procesamiento de datos estructurados en grafo. Al tratar con datos grandes y dispersos, a menudo se requieren modelos GCN más profundos. Sin embargo, los modelos sufren de degradación del rendimiento a medida que aumenta el número de capas. La atribución principal de la investigación actual es el exceso de suavizado, y también hay desvanecimiento de gradientes, dificultades de entrenamiento, etc., por lo que no se puede llegar a un consenso. En este documento, analizamos teóricamente el problema de degradación al adoptar la teoría espectral de grafos para considerar globalmente los componentes de propagación y transformación de la arquitectura de GCN, y concluimos que el problema de exceso de suavizado causado por las matrices de propagación no es el factor clave para la degradación del rendimiento. Posteriormente, además de utilizar métodos experimentales convencionales, propusimos una estrategia de análisis experimental bajo la guía de la teoría de matrices aleatorias para analizar la distribución de valores singulares de la matriz de pesos del modelo. Concluimos que el factor clave que conduce a la degradación del rendimiento del modelo es el componente de transformación. En el contexto de la falta de consenso sobre el problema de degradación del rendimiento del modelo, el documento propone una estrategia de análisis sistemático, así como evidencia teórica y empírica.