面向图表示学习的领域自适应:挑战、进展和展望
Domain Adaptation for Graph Representation Learning: Challenges, Progress, and Prospects
-
摘要:研究背景 当前,以图神经网络为代表的图表示学习方法通过挖掘实体、关系所蕴含的知识来解决各个粒度的任务,包括节点级、边级、图级等。然而,图表示学习常常面临知识稀缺问题,即高质量样本标注稀少和实体间关系数据稀少。一方面,由于图数据常常规模庞大,且样本标注难度相比于非结构化数据较高,图上的监督信号常常不充分;另一方面,受到幂律分布等内在规律以及平台发展阶段的制约,关系数据常常稀疏。当监督信号不足或关系数据匮乏时,图模型往往难以充分学习任务相关的知识及实体之间的关联关系,导致任务性能明显下降。为缓解以上问题,研究者们关注到现实场景中往往存在与任务图相关的其他图数据,这些数据可以作为额外的知识来源,如其他业务线积累的数据或学界的开源数据集。它们在结构或特性上可能与任务图有许多相似之处,而它们的优化目标也可能在某些维度与任务图一致。因此,研究者们提出了面向图表示学习的领域自适应技术:通过引入这些额外的图数据(源域),并将其中蕴含的标注知识、关系知识等迁移到任务图(目标域),有望进一步提高模型在知识稀疏的任务中的表现。目的 当前,随着越来越多的研究人员投入这个领域,图表示学习领域迫切需要一些讨论面向图的迁移学习的领域综述,而图领域自适应这项技术更缺乏系统性的梳理。鉴于该项技术能推动推荐系统、智慧城市、A14Science等多个领域的发展,且具备一定的挑战性,本文提出面向图领域自适应的综述性研究,全面阐述了该领域的挑战、研究路线以及未来发展方向,以帮助其他研究人员快速掌握本领域的现状并推动领域发展。方法 首先,本文阐释了领域的独特挑战,即图数据具有的非欧几里得性质不仅使得学习有效的节点表示并减少源域上的预测误差变得困难,还造成了复杂的跨域分布偏移。随后,基于这些挑战和通用的优化框架,本文从三个维度梳理研究路线:1)基于源域的优化方法,包括如何通过定制的图编码器和损失函数等降低源域上的预测误差,2)基于迁移过程的优化方法,包括如何减小目标域和源域的复杂跨域分布偏移,如结构偏移、条件分布偏移、多通道偏移等,和3)基于目标域的优化方法,包括如何利用结构、语义等目标域的“免费”知识持续优化图表示和任务结果等。本文还从实验的角度验证了不同技术路线所提出有代表性的模型的优劣,以期为研究者们在模型选择时提供指导。最后,本文还阐述了本领域的发展前景,提出了一些开放性的、具有挑战性的未解决问题。结果与结论 本文共引用70多篇图领域自适应相关工作;通过对于这些现有工作的阐述、实验和探讨,本文发现了图领域自适应当前面临的一些问题和挑战,并指出该技术在如下方向上可能的未来发展:1) 如何设计更适合图数据、图模型与图任务的知识迁移模型:由于跨图域的分布偏移更加复杂,因此该领域需要进一步研究更专属于图数据的跨域知识迁移模型。2) 如何为任务选择最优源域:目前,该领域缺乏对筛选最适合知识迁移的源域的深入研究;而筛选出较优的源域可以保证知识迁移效果。然而,由于图数据具有复杂的结构和属性分布,预计算源域和目标域之间的相关性并做最优选择具有挑战性。3) 如何在源域数据有限的任务中实现知识迁移:在工业级场景中,往往图模型会在超大规模底图上训练,然后再应用到规模更小的图上完成推理。由于训练-推理面临两张不同的图,图数据分布之间可能存在一定的差异(归纳偏置);这可能会导致图模型效果在推理阶段下降。通过将训练底图视为源域,并把推理过程形式化为源域数据不可访问(或部分信息可访问)下的领域自适应问题,需要进一步研究如何把源域丰富的知识迁移到任务图以提升任务效果。4) 如何扩展到大规模图数据:由于该领域的模型大多在训练过程中同时使用源域和目标域的全部图数据,将其应用于工业级别的大规模图数据面临挑战。Abstract: Graph representation learning often faces knowledge scarcity in real-world applications, including limited labels and sparse relationships. Although a range of methods have been proposed to address these problems, such as graph few-shot learning, they mainly rely on inadequate knowledge within the task graph, which would limit their effectiveness. Moreover, they fail to consider other potentially useful task-related graphs. To overcome these limitations, domain adaptation for graph representation learning has emerged as an effective paradigm for transferring knowledge across graphs. It is also recognized as graph domain adaptation (GDA). In particular, to enhance model performance on target graphs with specific tasks, GDA introduces a bunch of task-related graphs as source graphs and adapts the knowledge learnt from source graphs to the target graphs. Since GDA combines the advantages of graph representation learning and domain adaptation, it has become a promising direction of transfer learning on graphs and has attracted an increasing amount of research interest in recent years. In this paper, we comprehensively overview the studies of GDA and present a detailed survey of recent advances. Specifically, we outline the current research status, analyze key challenges, propose a taxonomy, introduce representative work and practical applications, and discuss future prospects. To the best of our knowledge, this paper is the first survey for graph domain adaptation.