2022-07-10

DAGNN

摘要

引入

图神经网络在图表示学习邻域取得了较大的成功。

图卷积执行领域聚合，是最重要的图操作之一，然而这些邻域聚合方法中的一层只考虑直接邻域，当深入到更大的接收域时，性能会下降。最近的一些研究将这种性能下降归因于过平滑问题，该问题指出，重复传播使不同类别的节点表示无法区分。

在这项工作中，我们系统地研究了这一观察结果，并对深层次的图神经网络发展了新的见解。

首先，我们对这一问题进行系统的分析，认为当前图卷积运算中显著影响性能的关键因素是==表示变换和传播的纠缠（the entanglement of representation transformation and propagation）==，在解耦这两种操作之后，可以使用更深层次的图神经网络从更大的接受域学习图节点表示。

在建立非常深入的模型时，我们进一步提供了对上述观察的理论分析，这可以作为对过平滑问题的严格和温和的描述。

在理论和实证分析的基础上，我们提出了==深度自适应图神经网络（DAGNN）自适应来自大接收域的信息。==

Introduction

P1

表示实体及其关系的图在现实世界中无处不在，例如社交网络、点云、交通网络、知识图和分子结构。

近年来，许多研究都致力于开发面向图数据的深度学习方法，导致图神经网络领域的快速发展。

在许多应用中都取得了很大的成功，如节点分类【】，图分类【】和链路预测【】

图卷积采用一种领域聚合（或消息传递）的方式同时考虑节点特征和图拓扑信息来学习节点表示，其中最具代表性的方法是图卷积网络（GCN）【】

GCN通过迭代聚合相邻节点的表示来学习节点的表示，然而GCN和大多数其他图卷积面临的常见挑战是，一层图卷积只考虑直接邻居，当我们应用多层来利用大的接收域时，性能回大大下降。

最近的一些研究将这种性能下降归因于过度平滑问题【】，该问题指出，由于重复传播，来自不同类的表示变得不可分割。

在这项工作中，我们系统地研究了这种性能下降，并对更深层次的图神经网络提出了新的见解。

p2

首先，我们利用节点表示平滑度的量化度量和数据可视化结束，系统地分析了多层GCN层堆叠时的性能下降。

我们观察到影响性能的主要因素是表示变换和传播的纠缠，在解耦这两种操作之后，证明了可以部署更深层的图神经网络来从更大的接收域学习图节点表示，而不会造成性能下降。

过平滑问题表明，只有在使用非常大的接收邻域时才会影响性能。

在构建非常深的模型时，我们进一步对上述观察结果进行理论分析，表明当深度无限时，图节点表示将变得不可区分。

这与过平滑问题是一致的。

前面对过平滑问题的描述简化了非线性激活函数的假设【】或对不同的概率进行近似。我们的理论分析可以作为一个更严格个温和的描述过平滑问题。

基于我们的理论和实证分析，我们提出了一个高效和有效的网络，称为DAGNN，通过自适应地合并来自大接收域的信息来学习节点表示。

大量关于引文，合著和共同购买数据集的实验证明了我们见解的合理性和我们提出网络的优越性。

2.背景和相关研究

首先，我们介绍在本文中使用的符号，一般来说，我们让粗体大写字母表示矩阵，粗体小写字母表示向量。

图被正式定义为$G=(V,E)$,其中V为从1到n索引的节点的集合，$E \subseteq V \times V$ 为V中节点之间边的集合，$n=|V|,m=|E|$ 分别为节点数和边数，在本文中我们考虑无权和无向图，整个图的拓扑信息由邻接矩阵

2.1 图卷积操作

最流行的图卷积操作遵循一种领域聚合（或者消息传递）的方式，通过传播其邻域的表示并在其后应用转换来了解节点表示。

2.2 Related work

一层GCN只考虑直接邻居，即单挑邻居，如果需要多跳邻居，应该应用多层，然而在实践中，当多层堆叠时，GCN的性能会大大下降，一些研究表明，叠加很多层会带来过度平滑的问题，这意味着节点的表示收敛到难以区分的极限。

据我们所知，【15】式第一次尝试在GCN中去神秘化过平滑问题，作者首先证明了GCN模型的传播过程是一种特殊的对称形式的拉普拉斯平滑，使同一类节点的表示相似，从而大大简化了分类任务。

然后他们表明，反复叠加许多层可能会使来自不同类的节点表示无法区分，通过分析节点影响分布与随机游走【17】之间的关系，对【33】中同样的问日进行了研究。

最近，SGC【31】通过降低GCN中不必要的复杂性而提出的，作者表明SGC对应于光谱域上的低通型滤波器，从而在图上推导平滑特征。最近的另一项工作[3]验证了平滑是大多数典型图卷积的本质。结果表明，合理的平滑能使图卷积有效，过平滑性能较差。

由于可能存在过平滑问题，在实际应用中通常采用有限邻域，且难以扩展。

但是，应该考虑远程依赖关系，特别是外围节点。

在半监督学习条件下，当训练节点数量有限时，较小的接受域不足以将训练信号传播到整个图。

[15]采用co-training和self-training来克服架构浅层的局限性。

在[3]中引入了光滑化正则项和自适应边缘优化来解决过平滑问题。

jump Knowledge Network[33]部署了一种层聚合机制，可以自适应地选择不同范围的nodeâĂŹs子图特性，而不是为所有节点捕获同等平滑的表示。

[12]利用GCN和PageRank[23]之间的关系，开发了一种基于个性化PageRank的传播机制，既能保留节点的本地信息，又能从较大的邻域中收集信息。

最近，提出了通过设计非本地聚集器来捕获非关联性图的长距离依赖关系的GeomGCN[25]和非本地gnn[16]。

DEEP ADAPTIVE GRAPH NEURAL NETWORK

在本节中，我们基于上述见解提出了深度自适应图神经网络(DAGNN)。

我们的DAGNN贡献了两个突出的优势。

首先，==它将表示转换从传播解耦，这样就传递高阶邻域信息而不受性能下降的影响==，这在第3.2节中已经验证过了。

其次，==利用自适应调整机制，对每个节点自适应平衡来自局部邻域和全局邻域的信息，从而获得更具区别性的节点表示。==

定义DAGNN的数学表达式为

其中c是节点类的数量，$z \in R^{n \times c}$ 是对原始特征矩阵应用MLP网络得到的特征矩阵，我们利用对称归一化传播机制

k是一个超参数，表示模型深度，$s\in R^{c \times 1}$是一个可训练投影向量。$\sigma(.)$是一个激活函数，我们可采用sigma.利用叠加、重构、挤压等方法对数据维数进行重新排列，实现计算时的维数匹配。

图中提供了我们提议的DAGNN的说明。DAGNN主要有3个步骤：转换、传播和自适应调整。我们首先利用一个共享的MLP网络进行特征转换。

从理论上讲MLP可以逼近任何可测量函数【10】，显然，z只包含单个节点本身的信息，没有结构。

变换后，利用传播机制$\hat{A}$来收集邻域信息。

$H{l}$表示从距离为$l-hop$的节点传播信息得到的表示，因此$H{l}$从每个节点的根高度子树中获取信息。随着深度的增加，H中包含的全局信息越多，因为对应的子树越深

然而，很难确定一个合适的。小的可能无法获取足够和必要的邻域信息，而大的可能会带来过多的全局信息，冲淡特殊的局部信息。

此外，每个节点在这个节点上有一个不同的子树结构，每个节点最适合的接受域应该是不同的。

为此，我们在传播后加入一个自适应调整机制。

我们利用一个可训练的投影向量s，由所有节点共享来生成保留分数。这些分数用于从不同的邻域范围携带信息的表示。这些保留分数衡量由不同传播层派生的对应表示应该保留多少信息，以生成每个节点的最终表示。

利用这种自适应调整机制，DAGNN可以对每个节点的局部邻域和全局邻域信息进行自适应平衡。

显然，转换过程和自适应调整过程具有可训练的参数，而传播过程中不存在可训练的参数，这导致了参数高效模型。

注意，DAGNN是端到端训练的，这意味着在优化网络时将这三个步骤放在一起考虑。

解耦来自传播的表示转换，利用可学习的保持分数自适应地调整来自局部和全局邻域的信息，使DAGNN具有从大的和自适应的接受域为特定节点生成合适表示的能力。

此外，消除了表示变换和传播的纠缠，可以在不引入更多可训练参数的情况下得到较大的邻域。

此外，在早期阶段将表示形式转换为低维空间使DAGNN具有计算性