【NLP】四万字全面详解 | 深度学习中的注意力机制(二)

发布时间:2023-01-02 12:00

NewBeeNLP原创出品  

公众号专栏作者@蘑菇先生 

知乎 | 蘑菇先生学习记

 前情提要四万字全面详解 | 深度学习中的注意力机制(一)

目前深度学习中热点之一就是注意力机制(Attention Mechanisms)。Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先Attend到这个人的脸,然后再把不同区域的信息组合起来,形成一个对被观察事物的整体印象。

「同理,Attention Mechanisms可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因」

在上一篇文章中,我们分享了seq2seq以及普通attention网络,今天来看看Attention机制的各种变体。

本部分介绍Attention机制的各种变体。包括但不限于:

  • 「基于强化学习的注意力机制」:选择性的Attend输入的某个部分

  • 「全局&局部注意力机制」:其中,局部注意力机制可以选择性的Attend输入的某些部分

  • 「多维度注意力机制」:捕获不同特征空间中的Attention特征。

  • 「多源注意力机制」:Attend到多种源语言语句

  • 「层次化注意力机制」:word->sentence->document

  • 「注意力之上嵌一个注意力」:和层次化Attention有点像。

  • 「多跳注意力机制」:和前面两种有点像,但是做法不太一样。且借助残差连接等机制,可以使用更深的网络构造多跳Attention。使得模型在得到下一个注意力时,能够考虑到之前的已经注意过的词。

  • 「使用拷贝机制的注意力机制」:在生成式Attention基础上,添加具备拷贝输入源语句某部分子序列的能力。

  • 「基于记忆的注意力机制」:把Attention抽象成Query,Key,Value三者之间的交互;引入先验构造记忆库。

  • 「自注意力机制」:自己和自己做attention,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号