GNN-LM Language Modeling based on Global Contexts via GNN [ICLR22]

ICLR2022 spotlight

论文总的目的是以空间换时间和精度，而具体的空间开销以图的形式存储。

本文提出了GNN-LM，将图神经网络与语言模型相结合，通过在整个训练语料库中引用相似的上下文，扩展了传统的语言模型。使用k近邻检索与输入的表示最相似的邻居，模型为每个输入构建了一个有向异构图，其中节点是来自输入上下文或检索到的邻居上下文的token，边表示token之间的连接。然后利用图神经网络从检索到的上下文中聚合信息，以解码下一个token。实验结果表明，GNN-LM在标准数据集中优于强基线，并且通过与kNN-LM结合，能够在WikiText-103上取得最优效果。

从闭卷考试到开卷考试 对于传统的LM，我们会令神经网络学习数据中的知识，而在测试时这些数据是不可见的，这就类似“闭卷考试”。这时，影响模型测试的准确率的因素，或者说影响我们“考试成绩”的因素，就是是否能够准确的记住所有的数据/“知识点”。而作者提到，开卷考试一般比闭卷考试简单，因此令训练数据在测试时是可见的，我们在面对“考试题”的时候会去“书本”上查找最相关的知识点来解答。而这里知识点匹配的算法则是KNN-LM，得到的知识点构建图来回答问题。

pipeline

如上图右侧所示，对于输入的context，首先借助KNN-LM生成近邻\(\mathcal{N}\left(\boldsymbol{c}_{t}\right)=\left\{\boldsymbol{c}_{t_{1}}^{(1)}, \ldots, \boldsymbol{c}_{t_{k}}^{(k)}\right\}\)。而后对检索出来的语句和测试语句构建一个异构图，包含\(a_0\)和\(a_n\)两类节点，分别对应查询语句中的token和近邻的token，接下来对构建的图应用GNN，得到输入语句的最后一个token的representation用以预测

性能对比