NLP经典模型复现之开宗明义

发布时间：2023-10-01 19:30

文章目录

1. 为什么要写这个专栏
2. 专栏的主要内容
3. 阅读论文的正确姿势

1. 为什么要写这个专栏

大家好，我是herosunly，从985院校硕士毕业，现担任算法研究员一职。CSDN博客专家，2020年博客之星TOP。曾获得阿里云天池比赛第一名等Top名次，拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。

7月初写了一篇保姆级人工智能学习成长路径，得到了读者的广泛好评。但不少读者觉得意犹未尽，希望能出更加详尽的课程，比如如何能够真正入门某一细分领域，如NLP(自然语言处理)。为了帮助热爱学习的同学，在工作之余，特意编写NLP经典模型复现专栏。之所以写此专栏，是因为在我心中最快入门某个机器学习领域的方法是read the paper, and reproduce the code(阅读经典论文并复现其代码)。

很多人可能觉得很诧异，因为在大多数人看来学习视频是入门的最好方式。而我却并不赞同，因为学习视频只能算是了解，而无法达到入门的效果。虽然教学的本质应当是传道受业解惑，但在教学的过程中知识层面上受益更大的是老师，而并非学生(费曼学习法的本质，感兴趣的同学可以深入了解该方法)。而入门的真正有效的方法唯有动手实践，那么就让我陪伴大家开启这次NLP经典模型复现之旅吧。

为了减轻上手学习的难度，在本次学习中采用的深度学习框架是Pytorch。主要原因在于该框架方便调试。如果大家有强烈的需求，后续也会增加相应的Tensorflow版本。

2. 专栏的主要内容

首先我会从NLP领域中最为基础性的工作即词向量。在第一部分中，要复现的经典词向量模型包括NNLM、word2vec、FastText等。那么简要说明一下它们之间的关系。在词向量中最为经典的模型当属word2vec，NNLM是word2vec的鼻祖，也是非常具有代表性的工作。然后在word2vec的基础上又发展了FastText和Glove。

第二部分会深入讲解神经网络经典模型：卷积神经网络和循环神经网络在文本中的应用，即TextCNN、TextRNN、TextLSTM、Bi-LSTM(双向LSTM)。

紧接着第三部分会讲解Seq2Seq模型及其应用（如机器翻译等任务），并引出Attention(注意力机制)是如何在原有模型基础上进行改进的。

第四部分会讲解这两年大红大紫的Transformer和BERT模型。

3. 阅读论文的正确姿势

很多同学不注重学习方法，不思考问题的本质就盲目的阅读论文。表面上是勤奋，但实际上是战略上的懒惰。由于本次学习任务主要是复现模型，而不是把握论文中的每一个细节。所以我们学习的重点是模型的架构和实现模型的一些重要技巧(包括一些重要参数的设置)。

如果经过认真阅读某一篇经典论文后，也无法提取到上述信息。此时学习的正确姿势是寻找是否存在别的经典论文，并再进行研读。因为某些经典模型对应的paper往往不止一篇。如果再找不到，也可以寻找一些经典的博客进行学习。而不是本末倒置，一上来去学习博客，这是学习的大忌。

可能对于部分同学来说，阅读并复现论文有些困难，可以先学习我的专栏：机器学习入门之工具篇。

最后再分享一个精心打磨的专栏： Al比赛教程。分享各类Al比赛（阿里云天池、科大讯飞等）前几名队伍的成功经验，包括NLP，CV、语音、时序预测、信息安全等方向。其中也包括自己取得的阿里云第一名的经验分享。也包括打比赛提分的一些实用tricks ，从而更好的帮助新手入门数据科学竞赛。

NLP经典模型复现之开宗明义

文章目录

1. 为什么要写这个专栏

2. 专栏的主要内容

3. 阅读论文的正确姿势

相关推荐