NLP经典模型复现之开宗明义

发布时间:2023-10-01 19:30

文章目录

  • 1. 为什么要写这个专栏
  • 2. 专栏的主要内容
  • 3. 阅读论文的正确姿势

1. 为什么要写这个专栏

  大家好,我是herosunly,从985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。
在这里插入图片描述

  7月初写了一篇保姆级人工智能学习成长路径,得到了读者的广泛好评。但不少读者觉得意犹未尽,希望能出更加详尽的课程,比如如何能够真正入门某一细分领域,如NLP(自然语言处理)。为了帮助热爱学习的同学,在工作之余,特意编写NLP经典模型复现专栏。之所以写此专栏,是因为在我心中最快入门某个机器学习领域的方法是read the paper, and reproduce the code(阅读经典论文并复现其代码)。

  很多人可能觉得很诧异,因为在大多数人看来学习视频是入门的最好方式。而我却并不赞同,因为学习视频只能算是了解,而无法达到入门的效果。虽然教学的本质应当是传道受业解惑,但在教学的过程中知识层面上受益更大的是老师,而并非学生(费曼学习法的本质,感兴趣的同学可以深入了解该方法)。而入门的真正有效的方法唯有动手实践,那么就让我陪伴大家开启这次NLP经典模型复现之旅吧。
NLP经典模型复现之开宗明义_第1张图片

  为了减轻上手学习的难度,在本次学习中采用的深度学习框架是Pytorch。主要原因在于该框架方便调试。如果大家有强烈的需求,后续也会增加相应的Tensorflow版本。

2. 专栏的主要内容

  首先我会从NLP领域中最为基础性的工作即词向量。在第一部分中,要复现的经典词向量模型包括NNLMword2vecFastText等。那么简要说明一下它们之间的关系。在词向量中最为经典的模型当属word2vec,NNLM是word2vec的鼻祖,也是非常具有代表性的工作。然后在word2vec的基础上又发展了FastText和Glove。

  第二部分会深入讲解神经网络经典模型:卷积神经网络和循环神经网络在文本中的应用,即TextCNNTextRNNTextLSTMBi-LSTM(双向LSTM)。

  紧接着第三部分会讲解Seq2Seq模型及其应用(如机器翻译等任务),并引出Attention(注意力机制)是如何在原有模型基础上进行改进的。

  第四部分会讲解这两年大红大紫的TransformerBERT模型。

3. 阅读论文的正确姿势

  很多同学不注重学习方法,不思考问题的本质就盲目的阅读论文。表面上是勤奋,但实际上是战略上的懒惰。由于本次学习任务主要是复现模型,而不是把握论文中的每一个细节。所以我们学习的重点是模型的架构实现模型的一些重要技巧(包括一些重要参数的设置)。

  如果经过认真阅读某一篇经典论文后,也无法提取到上述信息。此时学习的正确姿势是寻找是否存在别的经典论文,并再进行研读。因为某些经典模型对应的paper往往不止一篇。如果再找不到,也可以寻找一些经典的博客进行学习。而不是本末倒置,一上来去学习博客,这是学习的大忌。

  可能对于部分同学来说,阅读并复现论文有些困难,可以先学习我的专栏:机器学习入门之工具篇。

  最后再分享一个精心打磨的专栏: Al比赛教程。分享各类Al比赛(阿里云天池、科大讯飞等)前几名队伍的成功经验,包括NLP,CV、语音、时序预测、信息安全等方向。其中也包括自己取得的阿里云第一名的经验分享。也包括打比赛提分的一些实用tricks ,从而更好的帮助新手入门数据科学竞赛。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号