2020年图机器学习的发展趋势

深度学习自然语言处理 2020-08-31 2711

描述

本文写作目的并非介绍图机器学习的基本概念，如图神经网络（Graph Neural Network，GNN），而是揭示我们可以在顶级学术会议上看到的前沿研究。首先，我把在图机器学习的研究成果的论文提交到 ICLR 2020阐述了GNN的论文情况。

有 150 篇论文涉及图机器学习，其中三分之一的论文已被接受。这大约相当于所有被接受论文的 10%。

在阅读了大部分关于图机器学习的论文之后，我整理出了 2020 年图机器学习的趋势，如下所列：

对图神经网络将有更深入的理论理解；

图神经网络将会有更酷的应用；

知识图谱将会变得更为流行；

新的图嵌入框架将出现。

让我们来看看这些趋势。

1. 图神经网络的理论理解

从目前发展趋势看，图机器学习的领域在进展迅速，但是图神经网络还有很多工作要做。但关于图神经网络的工作原理，已经有了一些重要的研究结果！

洛桑联邦理工学院 Andreas Loukas 的这篇论文《What graph neural networks cannot learn： depth vs width》，无论在影响力、简洁性还是对理论理解的深度上，无疑是论文中的代表作。

论文表明，如果我们希望图神经网络能够计算一个流行的图问题（如循环检测、直径估计、顶点覆盖等等），那么节点嵌入的维数（网络宽度 w）乘以层数（网络深度 d）应与图 n 的大小成正比，即 dw=O（n）。

但现实是当前的GNN的许多实现都无法达到此条件，因为层数和嵌入的尺寸与图的大小相比还不够大。另一方面，较大的网络在实际操作中不合适的，这会引发有关如何设计有效的GNN的问题，当然这个问题也是研究人员未来工作的重点。需要说明的是，这篇论文还从80年代的分布式计算模型中汲取了灵感，证明了GNN本质上是在做同样的事情。

与此类似，Oono 与 Suzuki、Barcelo 等人的另外两篇论文也研究了图神经网络的威力。在第一篇论文《图神经网络在节点分类的表达能力呈指数级下降》（Graph Neual Networks Exponentially Lose Expressive Power for Node Classification）中，论文指出：

在一定的权重条件下，当层数增加时，GCN 只能学习节点度和连通分量（由拉普拉斯谱（the spectra of the Laplacian）确定），除此之外什么也学不到。

这个结果推广了马尔科夫过程（Markov Processes）收敛到唯一平衡点的著名性质，其中收敛速度由转移矩阵的特征值决定。

在第二篇论文《图神经网络的逻辑表达》（The Logical Expressiveness of Graph Neural Network）中，作者展示了**图神经网络和它们可以捕获的节点分类器类型之间的联系。**我们已经知道，一些图神经网络和图同构的威斯费勒 - 莱曼（Weisfeiler-Leman，WL）算法一样强大，也就是说，当且仅当两个节点被图神经网络分类为相同时，威斯费勒 - 莱曼算法才会将它们着色为相同的颜色。但是，图神经网络可以捕获其他分类函数吗？例如，假设一个布尔函数，当且仅当一个图有一个孤立的顶点时，该函数才会将 ture 赋值给所有的节点。图神经网络能捕捉到这一逻辑吗？从直观上来看是不能，因为图神经网络是一种消息传递机制，如果图的一部分和另一部分（两个连接的组件）之间没有链接，那么这两者之间将不会传递消息。因此，一个建议的简单解决方案是在邻域聚合之后添加一个读出操作，这样当每个节点更新所有特性时，它就拥有了关于图中所有其他节点的信息。

理论方面的其他工作包括 Hou 等人的图神经网络测量图信息的使用，以及 Srinivasan 与 Ribeiro 提出的基于角色和基于距离的节点嵌入的等价性。

2. 图神经网络的更多应用

在过去的一年中，GNN已经在一些实际任务中进行了应用。包括修复 JavaScript 中的 Bug、玩游戏、回答类似 IQ 的测试、优化 TensorFlow 计算图、分子生成以及对话系统中的问题生成。

在论文中，作者其提出了一种在Javascript代码中同时检测和修复错误的方法（HOPPITY： LEARNING GRAPH TRANSFORMATIONS TO DETECT AND FIX BUGS IN PROGRAMS）。具体操作是将代码转换为抽象语法树，然后让GNN进行预处理以便获得代码嵌入，再通过多轮图形编辑运算符（添加或删除节点，替换节点值或类型）对其进行修改。为了理解图形的哪些节点应该修改，论文作者使用了一个指针网络（Pointer network），该网络采用了图形嵌入来选择节点，以便使用LSTM网络进行修复。当然，LSTM网络也接受图形嵌入和上下文编辑。

类似的应用还体现在上面这篇论文中《LambdaNet： Probabilistic Type Inference using Graph Neural Networks》。来自得克萨斯大学奥斯汀分校的作者研究了如何推断像Python或TypeScript此类语言的变量类型。更为具体的，作者给出了一个类型依赖超图（type dependency hypergraph），包含了程序作为节点的变量以及它们之间的关系，如逻辑关系、上下文约束等；然后训练一个GNN模型来为图和可能的类型变量产生嵌入，并结合似然率进行预测。

在智商测试类的应用中，上面这篇论文《Abstract Diagrammatic Reasoning with Multiplex Graph Networks》展示了GNN如何进行IQ类测试，例如瑞文测验（RPM）和图三段论（DS）。具体的在RPM任务中，矩阵的每一行组成一个图形，通过前馈模型为其获取边缘嵌入，然后进行图形汇总。由于最后一行有8个可能的答案，因此将创建8个不同的图，并将每个图与前两行连接起来，以通过ResNet模型预测IQ得分。如下图所示：

机器学习

DeepMind 的一篇论文《用于优化计算图的增强遗传算法学习》（Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs）提出了**一种强化学习算法，可以优化 TensorFlow 计算图的成本。**这些图是通过标准的消息传递图神经网络来处理的，图神经网络生成与图中每个节点的调度优先级相对应的离散化嵌入。这些嵌入被输入到一个遗传算法 BRKGA 中，该算法决定每个节点的设备放置和调度。通过对该模型进行训练，优化得到的 TensorFlow 图的实际计算成本。

机器学习

类似的炫酷应用还有Chence Shi的分子结构生成《Graph Convolutional Reinforcement Learning》和Jiechuan Jiang玩游戏以及Yu Chen的玩游戏等等《Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation》。

3. 知识图谱将会变得更为流行

在ICLR2020会议上，有很多关于知识图谱推理的论文。从本质上讲，知识图谱是一种表示事实的结构化方法。与一般的图不同，知识图谱中的节点和边实际上具有某种意义，例如，演员的名字或在电影中的表演（见下图）。知识图谱的一个常见问题是回答一些复杂的查询，例如“在 2000 年前，Steven Spielberg 的哪些电影获得了奥斯卡奖？”可以将其转换成逻辑查询 ∨ {Win（Oscar， V） ∧ Directed（Spielberg， V） ∧ ProducedBefore（2000， V） }。

机器学习

知识图谱例子

在斯坦福大学Ren 等人的论文《Query2box：基于框嵌入的向量空间中知识图谱的推理》（Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings）中，作者建议将查询嵌入到潜在空间中作为矩形框形式，而不是作为单点形式。这种方法允许执行自然的相交操作，即合取 ∧，因为它会产生新的矩形框。但是，对联合（即析取 ∨）进行建模并不是那么简单，因为它可能会导致不重叠的区域。此外，为了精确建模任何带有嵌入的查询，用 VC 维（Vapnik-Chervonenkis Dimension）度量的嵌入之间的距离函数的复杂度应与图中实体的数量成正比。取而代之的一个很好的技巧是，将一个析取式查询替换为 DNF 形式，其中只有在计算图的末尾才会出现联合，这可以有效地减少对每个子查询的简单举例计算。

机器学习

Query2Box 推理框架

在类似的主题中，Wang 等人在题为《知识图谱中数字规则的可微学习》（Differentiable Learning of Numerical Rules in Knowledge Graphs）中，**提出了一种使用处理数值实体和规则的方法。**例如，对于引用知识图谱，可以有一个规则 influences（Y，X） ←colleagueOf（Z，Y） ∧ supervisorOf（Z，X） ∧ hasCitation》（Y，Z），它指出，学生 X 通常会受到他们的导师 Z 的同事 Y 的影响，后者被引用的次数更多。这个规则右边的每个关系都可以表示为一个矩阵，寻找缺失链接的过程可以通过实体向量的连续矩阵乘法，这一过程称为规则学习（Rule Learning）。由于矩阵的构造方式，神经方法只能在诸如 colleagueOf（z，y）这样的分类规则下工作。该论文作者的贡献在于，他们提出了一种新颖的方法，通过显示实际上无需显式地物化这样的矩阵，显著地减少了运行时间，从而有效地利用hasCitation（y，z）和否定运算符等数值规则。

机器学习

引用知识图谱（Citation KG）示例

在今年的图神经网络（或者说机器学习）中经常出现的一个研究方向是：对现有模型的重新评估，以及在一个公平环境中进行测评。

机器学习

上面这篇文章即是其中一个，他们的研究表明，新模型的性能往往取决于试验训练中的“次要”细节，例如损失函数的形式、正则器、采样的方案等。在他们进行的大型消融研究中，作者观察到将旧的方法（例如RESCAL模型）的超参数进行适当调整就可以获得SOTA性能。

当然在这个领域还有许多其他有趣的工作，Allen et al. 基于对词嵌入的最新研究，进一步探究了关系与实体的学习表示的隐空间。Asai et al. 则展示了模型如何在回答给定query的Wikipedia图谱上检索推理路径。Tabacof 和 Costabello 讨论了图嵌入模型的概率标定中的一个重要问题，他们指出，目前流行的嵌入模型TransE 和ComplEx（通过将logit函数转换成sigmoid函数来获得概率）均存在误校，即对事实的存在预测不足或预测过度。

4. 新的图嵌入框架将出现

图嵌入是图机器学习的一个长期的研究主题，今年有一些关于我们应该如何学习图表示的新观点出现。

康奈尔的Chenhui Deng等人的《GraphZoom： A Multi-level Spectral Approach for Accurate and Scalable Graph Embedding》提出了一种改善运行时间和准确率的方法，可以应用到任何无监督嵌入方法的节点分类问题。

这篇文章的总体思路是，首先将原始图简化为更小的图，这样可以快速计算节点嵌入，然后再回复原始图的嵌入。

机器学习

最初，根据属性相似度，对原始图进行额外的边扩充，这些便对应于节点的k近邻之间的链接。随后对图进行粗化：通过局部谱方法将每个节点投影到低维空间中，并聚合成簇。任何无监督的图嵌入方法（例如DeepWalk、Deep Graph Infomax）都可以在小图上获得节点嵌入。在最后一步，得到的节点嵌入（本质上表示簇的嵌入）用平滑操作符迭代地进行广播，从而防止不同节点具有相同的嵌入。在实验中，GraphZoom框架相比node2vec和DeepWalk，实现了惊人的 40 倍的加速，准确率也提高了 10%。

已有多篇论文对图分类问题的研究成果进行了详细的分析。比萨大学的Federico Errica 等人提出《**A Fair Comparison of Graph Neural Networks for Graph Classification **》在图分类问题上，对GNN模型进行了重新评估。

机器学习

他们的研究表明，一个不利用图的拓扑结构（仅适用聚合节点特征）的简单基线能获得与SOTA GNN差不多的性能。事实上，这个让人惊讶的发现，Orlova等人在2015年就已经发表了，但没有引起大家的广泛关注。

Skolkovo 科学技术研究院的Ivanov Sergey等人在《Understanding Isomorphism Bias in Graph Data Sets》研究中发现，在MUTAG和IMDB等常用数据集中，即使考虑节点属性，很多图也都会具有同构副本。而且，在这些同构图中，很多都有不同的target标签，这自然会给分类器引入标签噪声。这表明，利用网络中所有可用的元信息（如节点或边属性）来提高模型性能是非常重要的。

另外还有一项工作是UCLA孙怡舟团队的工作《**Are Powerful Graph Neural Nets Necessary？ A Dissection on Graph Classification **》。这项工作显示如果用一个线性近邻聚合函数取代原有的非线性近邻聚合函数，模型的性能并不会下降。这与之前大家普遍认为“图数据集对分类的影响并不大”的观点是相反的。同时这项工作也引发一个问题，即如何为此类任务找到一个合适的验证框架。

结论

随着顶会的论文提交量的增长，我们可以预计，2020 年图机器学习领域将会涌现许多有趣的成果。我们已经目睹这一领域的转变，从图的深度学习的启发式应用，到更合理的方法和关于图波形范围的基本问题。图神经网络找到了它的位置，作为一个有效的解决许多实际问题的方法，这些问题可以用图来表达，但我认为，总体而言，图机器学习只不过是触及了我们可以实现的图论和机器学习的交叉点上所能取得的成果的皮毛，我们应该继续关注即将到来的结果。

打开APP阅读更多精彩内容