发布时间:2023-02-28 10:00
Thinking 和 Machines是同一组输入(同一句话)中的某两个输入(某两个单词),x是上下文无关的词向量
每个q_i都算出n个score,即(1,n)的scores向量
其中,d_k是超参数(这里取64),为了让后面的计算中具有稳定的梯度
对于某个词向量,softmax(scores)即为所有词向量对该词向量的权重,将这些权重分别乘以各向量得到新向量。运算为(1,n)*(n,1)
那么最后能生成输入句子中单词与单词直接的权重矩阵,即注意力矩阵
注意encoder里面是叫self-attention,decoder里面是叫masked self-attention。
这里的masked就是要在做language modelling(或者像翻译)的时候,不给模型看到未来的信息。
详细来说,i作为第一个单词,只能有和i自己的attention。have作为第二个单词,有和i, have 两个attention。 a 作为第三个单词,有和i,have,a 前面三个单词的attention。到了最后一个单词dream的时候,才有对整个句子4个单词的attention。
论文 attention is all you need :详解链接
https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w
本文参考:
https://www.jianshu.com/p/e5dfc9e5d778
fastai v1环境搭建:Win10 MX250 CUDA10.1 cuDNN Pytorch1.0.0 Fastai v1安(bi)装(keng)指南
【ModuleNotFoundError & ImportError】之导入语句全列举
Blockchained On-Device Federated Learning学习笔记
Clion-MinGW编译后的exe文件添加ico图标的操作方法
《Sysdig 2022云原生安全和使用报告》发现:超过75%的运行容器存在严重漏洞
Google Earth Engine 学习4---批量运行和取消task中的run
IntelliJ IDEA 2022.1.1创建java项目的详细方法步骤