The Illustrated BERT, ELMo, and co中文翻译

发布时间：2022-12-02 22:00

原文链接：The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)

作者：Jay Alammar

BERT论文地址：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

前言

2018年可谓是自然语言处理（NLP）的元年，在我们如何以最能捕捉潜在语义关系的方式来辅助计算机对的句子概念性的理解这方面取得了极大的发展进步。此外， NLP领域的一些开源社区已经发布了很多强大的组件，我们可以在自己的模型训练过程中免费的下载使用。（可以说今年是NLP的ImageNet时刻，因为这和几年前计算机视觉的发展很相似）

上图中，最新发布的BERT是一个NLP任务的里程碑式模型，它的发布势必会带来一个NLP的新时代。BERT是一个算法模型，它的出现打破了大量的自然语言处理任务的记录。在BERT的论文发布不久后，Google的研发团队还开放了该模型的代码，并提供了一些在大量数据集上预训练好的算法模型下载方式。Goole开源这个模型，并提供预训练好的模型，这使得所有人都可以通过它来构建一个涉及NLP的算法模型，节约了大量训练语言模型所需的时间，精力，知识和资源。

BERT集成了最近一段时间内NLP领域中的一些顶尖的思想，包括但不限于 Semi-supervised Sequence Learning (by Andrew Dai and Quoc Le), ELMo (by Matthew Peters and researchers from AI2 and UW CSE), ULMFiT (by fast.ai founder Jeremy Howard and Sebastian Ruder), and the OpenAI transformer (by OpenAI researchers Radford, Narasimhan, Salimans, and Sutskever), and the Transformer (Vaswani et al).。

你需要注意一些事情才能恰当的理解BERT的内容，不过，在介绍模型涉及的概念之前可以使用BERT的方法。

示例：句子分类

使用BERT最简单的方法就是做一个文本分类模型，这样的模型结构如下图所示：

为了训练一个这样的模型，（主要是训练一个分类器），在训练阶段BERT模型发生的变化很小。该训练过程称为微调，并且源于 Semi-supervised Sequence Learning 和 ULMFiT.。

为了更方便理解，我们下面举一个分类器的例子。分类器是属于监督学习领域的，这意味着你需要一些标记的数据来训练这些模型。对于垃圾邮件分类器的示例，标记的数据集由邮件的内容和邮件的类别2部分组成（类别分为“垃圾邮件”或“非垃圾邮件”）。

模型架构

现在您已经了解了如何使用BERT的示例，让我们仔细了解一下他的工作原理。

BERT的论文中介绍了2种版本：

BERT BASE - 与OpenAI Transformer的尺寸相当，以便比较性能
BERT LARGE - 一个非常庞大的模型，它完成了本文介绍的最先进的结果。

The Illustrated BERT, ELMo, and co中文翻译

前言

示例：句子分类

模型架构

相关推荐