发布时间:2023-12-31 16:00
T a s k : L a n g u a g e M o d e l i n g ( L M ) 任 务 i n p u t c t = ( w 1 , w 1 … , w t − 1 ) o u t p u t p ( w t ∣ c t ) c 即 c o n t e x t , 即 由 上 下 文 预 测 下 一 个 单 词 或 字 符 是 什 么 常 规 方 法 B a s e L M : h t = f ( c t ) ∈ R d , p ( w t ∣ c t ) = S o f t m a x ( W h t ) E v a l u a t i o n M e t r i c : p e r p l e x i t y Task :Language Modeling(LM)任务\\ input \ c_t=(w_1,w_1…,w_{t-1}) \\ output \ p(w_t\vert c_t) \\ {\tiny c即context,即由上下文预测下一个单词或字符是什么} \\ 常规方法BaseLM:h_t=f(c_t)\in R^d,p(w_t\vert c_t) =Softmax(Wh_t)\\ Evaluation \ Metric: \href{https://www.zhihu.com/question/58482430}{perplexity} Task:LanguageModeling(LM)任务input ct=(w1,w1…,wt−1)output p(wt∣ct)c即context,即由上下文预测下一个单词或字符是什么常规方法BaseLM:ht=f(ct)∈Rd,p(wt∣ct)=Softmax(Wht)Evaluation Metric:perplexity
基于图神经网络的语义理解模型的GNN-LM,它将传统的NLP的闭卷模式,转变为开卷模式:在推理过程中允许参考训练数据。
输入的样例为query,首先在训练数据中通过K近邻(KNN)寻找相似的样例为邻居。通过图神经网络GNN建立输入样例与邻居的关系。
We further combine GNN-LM with kNN-LM (Khandelwal et al., 2019), an orthogonal technique enhancing language models, to improve the overall performance of our model.1
V : v e r t e x 即 每 个 t o k e n A : 点 的 类 型 , { a o 取 自 i n p u t , a n 取 自 r e t r i v e } R : 边 的 类 型 , { r i n t e r 不 同 c o n t e x , r i n t r a 同 c o n t e x } 函 数 : τ 点 类 别 查 询 , Φ 边 类 别 查 询 V:vertex 即每个token \\ A:点的类型,\{a_o取自input,a_n取自retrive\} \\ R:边的类型,\{r_{inter}不同contex,r_{intra}同contex\}\\ 函数:\tau 点类别查询 , \Phi 边类别查询 V:vertex即每个tokenA:点的类型,{ao取自input,an取自retrive}R:边的类型,{rinter不同contex,rintra同contex}函数:τ点类别查询,Φ边类别查询
注:本文使用的KNN除以了超参数T,以将尖峰平滑
BaseLM选择一个sota的LM训练后freeze
GNN-LM: LANGUAGE MODELING BASED ON GLOBAL CONTEXTS VIA GNN
【AI Drive】第104期 - 香侬科技孟昱先:GNN-LM 从“闭卷考试”到“开卷考试”
求通俗解释NLP里的perplexity是什么?
代码
Generalization through Memorization: Nearest Neighbor Language Models ↩︎