发布时间:2023-01-02 12:00
NewBeeNLP原创出品
公众号专栏作者@蘑菇先生
知乎 | 蘑菇先生学习记
目前深度学习中热点之一就是注意力机制(Attention Mechanisms)。Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先Attend到这个人的脸,然后再把不同区域的信息组合起来,形成一个对被观察事物的整体印象。
「同理,Attention Mechanisms可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因」
在上一篇文章中,我们分享了seq2seq以及普通attention网络,今天来看看Attention机制的各种变体。
本部分介绍Attention机制的各种变体。包括但不限于:
「基于强化学习的注意力机制」:选择性的Attend输入的某个部分
「全局&局部注意力机制」:其中,局部注意力机制可以选择性的Attend输入的某些部分
「多维度注意力机制」:捕获不同特征空间中的Attention特征。
「多源注意力机制」:Attend到多种源语言语句
「层次化注意力机制」:word->sentence->document
「注意力之上嵌一个注意力」:和层次化Attention有点像。
「多跳注意力机制」:和前面两种有点像,但是做法不太一样。且借助残差连接等机制,可以使用更深的网络构造多跳Attention。使得模型在得到下一个注意力时,能够考虑到之前的已经注意过的词。
「使用拷贝机制的注意力机制」:在生成式Attention基础上,添加具备拷贝输入源语句某部分子序列的能力。
「基于记忆的注意力机制」:把Attention抽象成Query,Key,Value三者之间的交互;引入先验构造记忆库。
「自注意力机制」:自己和自己做attention,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系。
Cisco三层交换机实现vlan间路由讲解与配置命令,配置过程很详细
C语言进阶(字符串函数及模拟实现strncpy&strncat&strncmp&strstr&strtok&strerror)2
Spring专题之:用300行代码提炼spring核心原理一
ebook下载 | 灵雀云发布《 企业高管IT战略指南——为何选择容器与Kubernetes》
基于JavaSwing开发聊天室(QQ聊天 群聊)系统+论文+PPT 大作业 毕业设计项目源码
笔记:STM32启动文件startup_stm32f10x_xx.s
无监督学习多模态融合!腾讯优图联合厦门大学发布2021十大AI趋势
基于.NetCore开发博客项目 StarBlog - (9) 图片批量导入