发布时间:2023-10-01 19:30
大家好,我是herosunly,从985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。
7月初写了一篇保姆级人工智能学习成长路径,得到了读者的广泛好评。但不少读者觉得意犹未尽,希望能出更加详尽的课程,比如如何能够真正入门某一细分领域,如NLP(自然语言处理)。为了帮助热爱学习的同学,在工作之余,特意编写NLP经典模型复现专栏。之所以写此专栏,是因为在我心中最快入门某个机器学习领域的方法是read the paper, and reproduce the code
(阅读经典论文并复现其代码)。
很多人可能觉得很诧异,因为在大多数人看来学习视频是入门的最好方式。而我却并不赞同,因为学习视频只能算是了解,而无法达到入门的效果。虽然教学的本质应当是传道受业解惑,但在教学的过程中知识层面上受益更大的是老师,而并非学生(费曼学习法的本质,感兴趣的同学可以深入了解该方法)。而入门的真正有效的方法唯有动手实践,那么就让我陪伴大家开启这次NLP经典模型复现之旅吧。
为了减轻上手学习的难度,在本次学习中采用的深度学习框架是Pytorch
。主要原因在于该框架方便调试。如果大家有强烈的需求,后续也会增加相应的Tensorflow版本。
首先我会从NLP领域中最为基础性的工作即词向量
。在第一部分中,要复现的经典词向量模型包括NNLM
、word2vec
、FastText
等。那么简要说明一下它们之间的关系。在词向量中最为经典的模型当属word2vec,NNLM是word2vec的鼻祖,也是非常具有代表性的工作。然后在word2vec的基础上又发展了FastText和Glove。
第二部分会深入讲解神经网络经典模型:卷积神经网络和循环神经网络在文本中的应用,即TextCNN
、TextRNN
、TextLSTM
、Bi-LSTM
(双向LSTM)。
紧接着第三部分会讲解Seq2Seq
模型及其应用(如机器翻译等任务),并引出Attention
(注意力机制)是如何在原有模型基础上进行改进的。
第四部分会讲解这两年大红大紫的Transformer
和BERT
模型。
很多同学不注重学习方法,不思考问题的本质就盲目的阅读论文。表面上是勤奋,但实际上是战略上的懒惰。由于本次学习任务主要是复现模型,而不是把握论文中的每一个细节。所以我们学习的重点是模型的架构
和实现模型的一些重要技巧
(包括一些重要参数的设置)。
如果经过认真阅读某一篇经典论文后,也无法提取到上述信息。此时学习的正确姿势是寻找是否存在别的经典论文,并再进行研读。因为某些经典模型对应的paper往往不止一篇。如果再找不到,也可以寻找一些经典的博客进行学习。而不是本末倒置,一上来去学习博客,这是学习的大忌。
可能对于部分同学来说,阅读并复现论文有些困难,可以先学习我的专栏:机器学习入门之工具篇。
最后再分享一个精心打磨的专栏: Al比赛教程。分享各类Al比赛(阿里云天池、科大讯飞等)前几名队伍的成功经验,包括NLP,CV、语音、时序预测、信息安全等方向。其中也包括自己取得的阿里云第一名的经验分享。也包括打比赛提分的一些实用tricks
,从而更好的帮助新手入门数据科学竞赛。