基于分层自监督学习将视觉Transformer扩展到千兆像素图像

发布时间:2023-06-11 09:00

关注并星标

从此不迷路

计算机视觉研究院

\"2bbe4052000ee669b89ebed8da3bbd50.gif\"

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第1张图片\"

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2206.02647.pdf

计算机视觉研究院专栏

作者:Edison_G

Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。

1

 概括

对于计算病理学中的千兆像素全玻片成像 (WSI),WSI在20倍放大倍率下可大至150000×150000像素,并在不同分辨率下呈现视觉标记的层次结构:从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。

研究者引入了一种新的ViT架构,称为分层图像金字塔变换器 (HIPT),它利用WSI中固有的自然分层结构,使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图像对33种癌症类型进行了预训练。在9个幻灯片级任务上对HIPT表示进行基准测试,并证明:

1) 具有分层预训练的HIPT优于当前最先进的癌症分型和生存预测方法;

2) 自监督ViT能够对重要的归纳建模关于肿瘤微环境中表型的层次结构的偏见。

2

 主要框架

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第2张图片\"

整张幻灯片图像(WSI)的层次结构。左边:与自然图像不同,由于WSI具有固定的比例,因此存在不同图像分辨率的视觉标记的层次结构。右边:除了将单个256×256图像表示为256 [16×16]标记的序列外,还可以将这些256×256图像视为4096中更大的、不相交的[256×256]标记序列的一部分4096×4096区域。

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第3张图片\"

HIPT 架构

受在自然语言处理中使用分层表示的启发,其中嵌入可以在字符、单词、句子和段落级别聚合以形成文档表示,在x16单元格、x256补丁、x4096区域级以形成幻灯片表示。为了在每个阶段对视觉概念之间的重要依赖关系进行建模,将Transformer自注意力调整为置换等变聚合层。请注意,由于使用x256标记修补x4096区域的复杂性与使用x16标记修补x256图像的复杂性相同,可以使用类似的自监督ViT技术为低分辨率图像预训练高分辨率图像的聚合层。

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第4张图片\"

Multi-Head Self-Attention Visualization of SelfSupervised ViTs

对于浸润性导管癌(IDC),展示了ViT256-16和ViT4096-256的自监督可视化,分别在x256和x4096区域上进行了预训练。对于x256补丁,ViT256-16能够描绘x16 tokens中的基质、细胞和“空白”存在。对于x4096区域,ViT4096-256描绘了粗粒度的形态特征,例如肿瘤巢及其周围的促纤维增生(松散)基质。

3

 实验

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第5张图片\"

HIPT中的Hierarchical Attention Maps

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第6张图片\"

ViT256-16 DINO Pretraining

Hierarchical Attention Maps for Colorectal Cancer (CRC)

© THE END 

转载请联系本公众号获得授权

\"4a6cdc05aa50b50e34a7bbf826e2a755.gif\"

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

\"基于分层自监督学习将视觉Transformer扩展到千兆像素图像_第7张图片\"

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

 往期推荐 

  • 实用目标检测器 | 性能超YoloV5,推理耗时不变(附github源码)

  • 霸榜第一框架:工业检测,基于差异和共性的半监督方法用于图像表面缺陷检测

  • CLCNet:用分类置信网络重新思考集成建模(附源代码下载)

  • YOLOS:通过目标检测重新思考Transformer(附源代码)

  • 工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载)

  • Fast YOLO:用于实时嵌入式目标检测(附论文下载)

  • 计算机视觉研究院:AI部署以及工业落地学习之路(文章较长,建议收藏)

  • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)

  • 多尺度深度特征(下):多尺度特征学习才是目标检测精髓(论文免费下载)

  • 多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)

  • ICCV2021目标检测:用图特征金字塔提升精度(附论文下载)

  • CVPR21小样本检测:蒸馏&上下文助力小样本检测(代码已开源)

  • 半监督辅助目标检测:自训练+数据增强提升精度(附源码下载)

\0\0\0\0

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号