发布时间:2023-01-02 12:00
NewBeeNLP原创出品
公众号专栏作者@蘑菇先生
知乎 | 蘑菇先生学习记
目前深度学习中热点之一就是注意力机制(Attention Mechanisms)。Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先Attend到这个人的脸,然后再把不同区域的信息组合起来,形成一个对被观察事物的整体印象。
「同理,Attention Mechanisms可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因」
在上一篇文章中,我们分享了seq2seq以及普通attention网络,今天来看看Attention机制的各种变体。
本部分介绍Attention机制的各种变体。包括但不限于:
「基于强化学习的注意力机制」:选择性的Attend输入的某个部分
「全局&局部注意力机制」:其中,局部注意力机制可以选择性的Attend输入的某些部分
「多维度注意力机制」:捕获不同特征空间中的Attention特征。
「多源注意力机制」:Attend到多种源语言语句
「层次化注意力机制」:word->sentence->document
「注意力之上嵌一个注意力」:和层次化Attention有点像。
「多跳注意力机制」:和前面两种有点像,但是做法不太一样。且借助残差连接等机制,可以使用更深的网络构造多跳Attention。使得模型在得到下一个注意力时,能够考虑到之前的已经注意过的词。
「使用拷贝机制的注意力机制」:在生成式Attention基础上,添加具备拷贝输入源语句某部分子序列的能力。
「基于记忆的注意力机制」:把Attention抽象成Query,Key,Value三者之间的交互;引入先验构造记忆库。
「自注意力机制」:自己和自己做attention,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系。
Hive on Spark 查询Hive映射HBase的表报错
CartPole 强化学习详解2 - Policy Gradient
使用中间件mycat实现MySQL读写分离(初步,navicat测试可行)
【youcans 的 OpenCV 例程200篇】144. 基于灰度形态学的纹理分割
姿态估算03-00:mmpose(Associative embedding)-目录-史上最新无死角讲解
Windows使用cmd命令行查看、修改、删除与添加环境变量
希云Docker培训视频百度云_希云cSphere-最佳实战Docker持续集成图文详解