层层剖析,让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理

发布时间:2022-10-12 21:30

文章目录

  • 本文内容
  • 一、Self-Attention
    • 1.1. 为什么要使用Self-Attention
    • 1.2. 直观的感受下Self-Attention
    • 1.3. Self-Attenion是如何考虑上下文的
    • 1.4. 如何计算相关性分数 α \alpha α
    • 1.5. 将 α \alpha α 归一化
    • 1.6. 整合上述内容
    • 1.7. 向量化
    • 1.8. d k d_k dk是什么,为什么要除以 d k \sqrt{d_k} dk
    • 1.9. 代码实战:Pytorch定义SelfAttention模型

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号