图神经网络的归纳彩票学习

隋勇铎; 王翔; 陈天龙; 汪萌; 何向南; 蔡达成

doi:10.1007/s11390-023-2583-5

摘要:

研究背景 目前图神经网络(GNNs)已经成为处理图结构数据一种最流行的模型。这种成功归咎于图神经网络的消息传递机制，即中心节点将邻居节点的信息进行聚合，并更新自己的节点表示。这种学习方式可以有效地将图的结构信息融入到节点的表示中。随着图神经网络的发展，构建更深的图神经网络模型并将其部署在更大尺度的图结构数据的需求也越来越大。

目的尽管加深图神经网络在大尺度的图数据上展现出非常优秀的潜能，然而由于模型参数规模的扩大以及图数据尺度和规模的扩大，也带来了极其昂贵的计算代价，这限制了在计算资源受限情况下的应用范围。最近，对于图神经网络的剪枝算法UGS被提出，目的是为了找到图彩票 (GLT)，它是模型参数和输入图的一个更小的子集。但UGS存在以下局限性：（1）UGS为图数据的每个边独立地设置可训练的掩码。也就是说，图数据边上的掩码仅受限于给定的图数据，这使得UGS在归纳学习的设置中是无法应用的，因为边缘掩码很难推广到全新的图数据。（2）单独为图数据的每条边应用掩码只能提供对该边的局部理解，而不是整个图（如在节点分类任务中）或更多个图（如在图分类任务中）的全局视角。此外，创建可训练图数据边的掩码的方式会使可学习的参数量翻倍，这在某种程度上违背了剪枝的目的。（3）不理想的图剪枝会对模型权重的剪枝也会产生负面影响。更糟糕的是，低质量的权重修剪会反过来放大图数据边掩码的误导信号。它们可能会相互影响，形成恶性循环。我们将 UGS 的所有这些局限性都归因于其直推学习的特性。因此，我们的研究目的是如何在归纳设置中进行组合修剪对于获得高质量的中奖彩票至关重要。

方法为了解决上述问题，本工作提出一种图神经网络归纳式“模型-数据”联合剪枝算法（ICPG），可以有效地找到图彩票。对于输入的图数据，我们设计一个预测模型AutoMasker，它可以为观测的图数据生成连边的掩码。它是一个基于图神经网络（GNN）的编码器，并且它的参数在所有观测到的图中是共享的。因此，AutoMasker能够自然地指定每条边的重要性，并从整个观测数据的全局视角提取核心子图。对于模型参数，我们使用模型权重的大小来评估是否应该进行剪枝，而不是训练额外的掩码。通过确定边缘掩码和权重大小，我们可以通过删除最低掩码边缘和最低大小权重来获得高质量的全局稀疏图。

结果我们在各种类型（生化分子、社交网络、超像素图、引文网络）和规模（小型、中型、大型）的图、各种学习设置（归纳、直推）和各种任务（图分类、节点分类）上进行了全面的实验。实验结果发现我们的方法可以有效地找到GLT，可以极大降低计算代价。此外我们也发现了AutoMasker具有良好的数据迁移性和模型迁移性，因此可以有效泛化到更多不同场景中。

结论我们提出的ICPG算法可以同时适用于归纳式和直推式图学习的场景，克服了现有工作只能适用于直推式学习的局限性，因此适用于更加广泛的图学习应用场景，例如节点分类，图分类等任务。实验结果也一致地证明了ICPG的有效性、可扩展性和实用性。

Abstract: Graph neural networks (GNNs) have gained increasing popularity, while usually suffering from unaffordable computations for real-world large-scale applications. Hence, pruning GNNs is of great need but largely unexplored. The recent work Unified GNN Sparsification (UGS) studies lottery ticket learning for GNNs, aiming to find a subset of model parameters and graph structures that can best maintain the GNN performance. However, it is tailed for the transductive setting, failing to generalize to unseen graphs, which are common in inductive tasks like graph classification. In this work, we propose a simple and effective learning paradigm, Inductive Co-Pruning of GNNs (ICPG), to endow graph lottery tickets with inductive pruning capacity. To prune the input graphs, we design a predictive model to generate importance scores for each edge based on the input. To prune the model parameters, it views the weight’s magnitude as their importance scores. Then we design an iterative co-pruning strategy to trim the graph edges and GNN weights based on their importance scores. Although it might be strikingly simple, ICPG surpasses the existing pruning method and can be universally applicable in both inductive and transductive learning settings. On 10 graph-classification and two node-classification benchmarks, ICPG achieves the same performance level with 14.26%–43.12% sparsity for graphs and 48.80%–91.41% sparsity for the GNN model.

图神经网络的归纳彩票学习

Inductive Lottery Ticket Learning for Graph Neural Networks