发布时间:2023-01-31 10:00
首先需要明确的是无监督模型的正确使用姿势,即先在较大的、难以很好标注的数据集上利用无监督训练得到一个pre-trained模型,再根据下游具体的任务,在较小的、可以很好标注的数据集上,进行有监督的fine-tuning。
很多DL Reseachers都认为深度学习的本质其实就是在做两类upstream tasks:
Representation Learning
(表示学习)和Inductive Bias Learning
(归纳偏好学习)。学好了样本的表示在不涉及推理、逻辑等的downstream tasks上,DL能够给出一个不错的结果。例如:NLP领域中判断句子的情感方向,CV领域中进行图像检索、物体识别。而DL要想较好地完成一些更加高级的语义信息和复杂的逻辑活动,就需要设计一系列过程去分解这些复杂的任务。Unsupervised Representation Learning在NLP领域已经取得了重大的成果,而CV领域的Unsupervised Visual Representation Learning却被甩在了后面。有了以上的Motivations,论文从
Contrastive Learning
(对比学习)框架的角度出发提出了MoCo
用于无监督的视觉表示学习。