深度网络架构的设计技巧(二)之BoT:Bottleneck Transformers for Visual Recognition

发布时间:2024-01-04 19:30

深度网络架构的设计技巧(二)之BoT:Bottleneck Transformers for Visual Recognition_第1张图片
单位:UC伯克利,谷歌研究院(Ashish Vaswani, 大名鼎鼎的Transformer一作)
ArXiv:https://arxiv.org/abs/2101.11605
Github:https://github.com/leaderj1001/BottleneckTransformers

导读:
Transformer一词来自本文作者之一的Ashish Vaswani,了解Transformer的人或许知道Original Transformer,另一个说法叫Vaswani Transformer。而ViT刚出来就引爆学术圈,各大CNN任务用Transformer翻一遍就能达到SOTA;而现在是Transformer+自监督学习,即MAE的天下。本文向经典致敬,向大佬学习如何设计有效的深度网络,即在ResNet BottleNeck内如何引入多头注意力。


目录

  • 一、摘要
  • 二、引言
  • 三、结构
    • 3.1 相对位置编码
    • 3.2 代码解读

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号