从传统图引擎到GNN：计算图和机器学习的演变

本文转载自公众号“读芯术”(ID：AI_Discovery)

为什么我对深度学习的关注重点转向图神经网络?”是因为数据结构还是高效计算?一切都从图的结构以及它们如何解决关系问题和支持分布式计算开始。

当将相同的结构应用于最先进的机器学习算法时，进化才真正发生。从简单的矩阵分解和线性回归算法到图形神经网络(GNN)的实现，我们都可以观察到技术的发展。

本文将详细介绍图、图的优势以及图在机器学习框架中的实现方式。笔者还将讨论图的兼容性和随着时间如何进化。

图

图是能够共同定义信息的关系型数据结构。它是非线性节点和链接的汇编。LinkedIn和Facebook社交网络、Netflix电影结构、谷歌地图和路径优化之类的真实信息只能由图形表示。让我们以家谱为例：

每个家族成员都是家族树图(G)中的一个顶点(V)，其关系由边(E)定义。如果要提取有关特定家庭成员的信息，则还必须知道他/她的关系，否则数据似乎不完整。每个节点和链接都有各自的意义和数据。同样，可以用许多不同的方式来表示相同的图，也可以使用不同的链接值自下而上绘制祖先图。

计算图

计算图是具有方程式数据的图。它们是表示数学表达式的有向图的一种形式。一个非常常见的示例是后缀、中缀和前缀计算。图中的每个节点都可以包含运算，变量或方程式本身。这些图出现在计算机中进行的大多数计算中。

图的优点

图提供了代表许多现实问题的独特结构。与典型的表或矩阵不同，该顺序的优先级并不高。每个元素都相互依赖以形成关系。这种关系是所有假设和基于此的预测的核心。它的优点是：

这是一个只能通过图形解决的关系问题。即使通过无监督学习进行尝试，也可以预测集群，但不能预测确切的标签或联系。我们将尝试并简要了解Netflix电影预测中的一个这样的问题：

想象类型、演员、语言、发行日期作为图的主要节点。许多电影根据其标签链接到上述节点。根据电影的不同，笔者会存储首选的属性节点。Netflix利用个性化视频排名(PVR)算法，根据所存储的图形数据按照流派、标题来预测电影。

在每种流派或标题中，它都再次应用了Top-N Video Ranker算法，该算法混合了流行选择和个人选择来预测电影。

机器学习中的图

所有的神经网络都是计算图。不仅这些而且线性回归等算法也可以以图的形式表示。传统图和神经网络之间的主要区别是实现。神经网络倾向于模仿计算图进行训练，但无法处理类似图的数据。他们需要结构化的数据才能正常工作。让我们根据神经网络中的正向传播来理解它。

假设这是8个节点和16个链接的图形。x1和x2输入神经元(节点)紧密连接到隐藏层节点。然后将这些节点类似地连接到输出层。x1，x2中的值将传输到隐藏层。隐藏层执行A=WX+B。连接隐藏层和输出层的链接激活这些值。它们的方程是H = function(A)。在输出层中也执行类似的过程。

总体而言，该图能够表示神经网络中正向传播的方程。

进化

在完成基础知识之后，我们将继续探讨图神经网络(GNN)的形成原因及其与人工神经网络(ANN)的不同之处。

如今，机器学习在许多自动化行业中都存在，并为许多组织和研究提供了最先进的结果。分布式图的计算源于高效的并行计算，稳定的图结构以及许多现实生活中的应用程序的实现，例如社交网络、知识图等。将这两种技术结合在一起将带来巨大的收益，并为更好的开发和效率带来了新的研究领域。

图引擎框架

已经进行了许多尝试来弥合图和机器学习算法之间的差距。图缺乏训练这些算法必不可少的属性。在将图计算和机器学习相结合时，缺乏对循环、异构性和数据一致性方面的支持，数据抽象是关注的主要主题。

诸如TUX2和GraphLab之类的图形引擎框架提出了解决某些问题的模型。他们成功地将分布式图形计算与矩阵分解、Latent Dirichlet分配算法相结合，但未能实现神经网络。与能够使用GPU进行计算的深度学习框架不同，这些引擎仅利用分布式计算。

GNN简介(ANN与GNN)

神经网络取代了许多静态算法，并引领了当前的机器学习行业。市场需要基于图的具有直接深度学习关联的技术。由于传统引擎出现故障和GPU缺少支持，才引入了图神经网络。

图神经网络是从图数据中学习的深度学习的新兴领域。随着图卷积网络、LSTM网络等的引入，该领域已显示出巨大的潜力。这些网络本身就是图结构，并利用相似的数据进行训练。诸如CORA和SNAP之类的图形数据集用于对其进行基准测试。

如果人工神经网络是计算图，那么为什么我们需要GNN?答案有时可能会令人困惑，但让我们开始了解基础知识。

人工神经网络以矩阵格式输入，或多或少是有序数据，而诸如社交网络之类的问题则将链接优先于次序。从技术上讲，在图形中，可以通过选择根节点和通过它的特定链接来推导顺序。
作为计算图的人工神经网络仅仅意味着它们是相互链接在一起的前馈数学表达式。网络及其使用的数据的依存关系图是不同的。
就层和函数而言，两个网络都包含dense、softmax、ReLU等，但是在每个计算和处理方面都是不同的。正常的密集层意味着完全的互连，但是在GNN中可能并非如此。
传统神经网络可以解决两种类型的问题：分类和回归。当涉及社交网络或知识图时，它们将失败。这些属于需要直接图形输入的关系问题。
在人工神经网络中，定义了模型体系结构，并将其输入及其各自的输出馈入模型。基于图的网络的训练和预测在某种程度上是无监督的。因此，如果要预测特定领英成员的姓名，笔者应该能够使用他的1度、2度人脉、公司、机构的隶属关系来进行操作，而无需真正知道他的实际标签。

当今的图神经网络的发展是非常直观的，上述知识我们需要掌握。