【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用

发布时间:2022-10-17 08:00


嘉宾 | 于恒

来源 | AI科技大本营在线公开课

编辑 | Jane

于恒:直播间的朋友大家好!欢迎大家来到本次AI科技大本营公开课,我是本次讲师于恒。

 

在讲课开始之前先简短的做个自我介绍,我是博士毕业于中国科学院计算技术研究所,方向是机器翻译的方向,目前在阿里巴巴翻译平台担任翻译模型组负责人,主要是为阿里巴巴的跨境电商贸易提供丰富的语言支持,让跨境贸易没有语言障碍。

【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用_第1张图片

今天非常高兴受到CSDN AI科技大本营的邀请,给大家分享自己在机器翻译方面的研究和工作。大家可以看到我PPT下面的几个 LOGO,我们翻译团队是属于阿里巴巴机器智能技术实验室,中间是阿里翻译的 Logo和我们的口号“Translate and Beyond”。

 

这次分享的题目是“Transformer新型神经网络在机器翻译中的应用”。

 

关注AI的同学最近应该会看到,机器翻译是一个比较活跃的领域,很多大公司都争先推出了自己的机器翻译服务,包括还有一些机器翻译的硬件已经在市场上投放,比如翻译笔。

 

产业的兴旺离不开背后技术的巨大进步,从今天的课程当中,我会给大家介绍背后技术的神秘面纱,然后对Transformer这个神经网络做深入的解析。

【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用_第2张图片

神经网络机器翻翻译是目前比较主流的机器翻译方法,它是“Sequence to Sequence”model,也就是端到端的翻译框架。如左图所示,我们输入一个待翻译的句子,通过神经网络编码器,去把这个句子的信息编码成中间状态,就是这个图中红色的部分,它用数值的隐层来表示。经过中间状态、经过神经网络解码器去生成对应的翻译,是编码、解码的过程。翻译的知识和参数都是由神经网络自动进行学习的,它省去了之前传统方法之前的人工干预模块,使整个翻译过程统一化,并且简洁。

随着深度学习发展带来的红利,这个翻译模型的性能有显著提升。如右图所示,这是谷歌翻译当时Release的数据,传统的是基于短语的翻译系统,翻译的性能远低于基于神经网络的翻译,就是那根绿色的线。并且神经网络的翻译在某些语项上是接近人类的水平。我们还可以注意到,在“英语到西语”、“英语到法语”,同样是拉丁语系的翻译上,神经网络的翻译和human的gap比较小,在“英语到汉语”这两者语言差异比较大的、翻译难度大的语种上gap比较大,所以神经网络仍然有比较大的进步空间。这是目前神经网络目前翻译的总体质量情况。

【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用_第3张图片

它背后的技术是怎样呢?从这个图可以大概看出来传统的基于RNN的“Sequece to Sequence”model是怎么运行的,这个例子是一个“英文到中文”的翻译,英文“Economicgrowth has slowed down in recent years”通过这个循环的RNN神经网络去逐词读入源端的句子,最终把它编码成红色那个点隐层的信息,根据这个隐层的信息输入到另外一个目标端的循环神经网络,然后逐词生成中文的翻译“近几年经济发展变慢了。”这里的是一个句子结束符的表示,生成的过程在句子末尾添加这样一个标志表示翻译过程结束了。

传统的RNN神经网络结构是可以处理任意长度的输入,它非常适合于自然语言的建模,所以它在一段时间内占据了整个神经网络中的主流。随着学术的发展,我们也会看到RNN有些不足,它的缺点主要有两点:第一点,RNN序列的特性导致其非常难以并行化,从上图可以看出,如果把RNN展开来是一个序列型的网络,比如我要得到X4的结果时,必须先计算出X0-X3的结果,这样的串行关系使它的并行度非常低。举一个例子,谷歌的GNMT的神经网络系统,它是需要96块GPU卡训练一周的时间才能完成一个模型的训练。96块GPU卡对于一个研究机构或者小公司来说是个巨大的开销,基本是负担不起的,并且还要训练一周的时间,所以RNN特性使整体模型训练速度非常慢、成本非常高。

【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用_第4张图片

另外在RNN训练中,RNN的网络结构对于长距离和层级化的依赖关系难以建立,比如句法信息、指代信息的关系,由于它只是一个单一的序列 ,所以它很难对这些关系进行建模。举个例子,“The dog didn’t cross street because it wastoo tired”,当我们看到“tired”的时候知道这个it指dog 。如果把最后一个词换了,“The dog didn’t cross street because it was too wide”,这时候如果是人看了这句话就很容易发现it 指的是street,因为street because it was wide,不可能是dog too wide。对于人来说很简单,但是机器要分清楚指代关系是非常难的。如果将这个句子翻译成法文或者德文的话,法文、德文对于dog和street翻译所用的格是不一样的。所以在GNMT或者传统的翻译处理中,这些case时基本是做不对的,如果做对了可能也是蒙的,这是RNN一个比较显著的局限性。

【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用_第5张图片

基于以上RNN的缺陷,我们肯定希望有更好的神经网络去代替它。我们期望是这样的:第一,它是可以高度并行化的网络。RNN的特点导致我们要抛弃RNN的结构,实现速度成倍的提升。并且我们需要能够捕捉层次化的信息,就需要建立一个很深层的神经网络,而不是单层的一个序列的LSTM的网络。并且我们需要能够对指代信息丰富的上下文进行建模,这需要Self-Attention、Multi-head Attention这样的技术。左边这个演示的是Transformer整体的训练过程,在Encoding的部分简单可以看到,每个词是很并行化处理的过程。在Encoding之后Decoding是根据深层神经网络当中的输入不断逐词解码,最终生成翻译。

这引出我们今天讲座的主题,将会分四个部分对Transformer进行解析

  • 第一,对网络结构进行解析;

  • 第二,对在机器翻译中的应用进行介绍;

  • 第三,因为我是从阿里翻译过来的,所以我会从工业实践的角度对Transformer进行介绍。我们最近参加了WMT2018全球机器翻译评测,拿到了比较好的结果。

  • 最后,从评测的结果对Transformer的表现进行分析。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号