发布时间:2023-02-28 10:00
Thinking 和 Machines是同一组输入(同一句话)中的某两个输入(某两个单词),x是上下文无关的词向量
每个q_i都算出n个score,即(1,n)的scores向量
其中,d_k是超参数(这里取64),为了让后面的计算中具有稳定的梯度
对于某个词向量,softmax(scores)即为所有词向量对该词向量的权重,将这些权重分别乘以各向量得到新向量。运算为(1,n)*(n,1)
那么最后能生成输入句子中单词与单词直接的权重矩阵,即注意力矩阵
注意encoder里面是叫self-attention,decoder里面是叫masked self-attention。
这里的masked就是要在做language modelling(或者像翻译)的时候,不给模型看到未来的信息。
详细来说,i作为第一个单词,只能有和i自己的attention。have作为第二个单词,有和i, have 两个attention。 a 作为第三个单词,有和i,have,a 前面三个单词的attention。到了最后一个单词dream的时候,才有对整个句子4个单词的attention。
论文 attention is all you need :详解链接
https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w
本文参考:
https://www.jianshu.com/p/e5dfc9e5d778
Fullcalendar日历使用,包括视图选择、事件插入、编辑事件、事件状态更改、事件添加和删除、事件拖动调整,自定义头部,加入el-popover显示图片、图片预览、添加附件链接等,支持手机显示。
MindSpore报错 For ‘MirrorPad‘, paddings must be a Tensor with *
vika维格表 8 月版本更新:API 面板新增调试入口,权限管理新增「只可更新」权限角色,记录卡片优化升级,使用更丝滑
【youcans 的 OpenCV 例程200篇】124. 孔洞填充的泛洪算法
中国企业出海墨西哥红利客观,ADVANCE.AI为其保驾护航
Hyperbolic Relevance Matching for Neural Keyphrase Extraction阅读笔记