生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

ACL2021字节跳动GlancingTransformer

4月8日 霸王亭投稿
  机器之心专栏
  作者:钱利华
  本文提出了一种为单步并行生成进行词之间依赖关系建模的方法。基于该方法的模型GLAT在不久前的国际机器翻译大赛(WMT2021)上击败一众自回归翻译系统,夺得了德语到英语方向机器翻译自动评估第一。
  目前机器翻译中常用的神经网络模型(例如Transformer,LSTM)基本上都是自回归模型(Autoregressivemodels)。自回归模型在输出句子时是逐词按顺序生成的,每一个输出的词都依赖于之前的输出词。
  虽然自回归模型被广泛应用并取得了不错的效果,但是自回归模型要求每一步输出都需要按顺序等待前面位置的输出。因此,按顺序生成的方式会阻碍自回归模型充分利用并行计算,当输出文本较长或者模型比较复杂的时候导致机器翻译的速度很慢。
  因此,为了充分利用并行计算资源来加速生成,学术界提出了非自回归(Nonautoregressive)的机器翻译模型〔1〕。非自回归模型去除了每一个输出依赖于前面部分输出的限制,假定不同位置之间的输出是条件独立的(即每一个输出的具体值与其他位置的输出具体取值无关),使得模型可以并行输出文本。得益于并行输出的方式,非自回归模型可以更充分地利用并行计算来加快生成的速度。
  虽然在生成速度上存在优势,但是之前的非自回归模型的翻译质量和自回归模型还存在显著差距。翻译质量差距的存在主要是因为如果并行输出语句,任何词在输出之间都无法确定语句中其它的词,难以有效利用词之间的依赖关系组成连贯的语句。为了在并行生成中建模并利用词之间的依赖关系,一些工作提出进行多轮并行输出来迭代修改语句〔2,3,4〕。虽然多轮迭代提升了输出语句的质量,但同时也减慢了生成的速度。
  那么是否有可能只进行一次并行的输出就得到质量不错的语句呢?
  这里为大家介绍一篇ACL2021的研究非自回归机器翻译的工作《GlancingTransformerforNonautoregressiveneuralmachinetranslation》〔5〕,作者来自字节跳动人工智能实验室,上海交通大学和南京大学。
  该工作提出了一种为单步并行生成方式进行词之间依赖关系建模的方法。在不久前的国际机器翻译大赛(WMT2021)上,GLAT击败一众自回归翻译系统,夺得了德语到英语方向机器翻译自动评估第一。
  论文地址:https:arxiv。orgabs2008。07905代码地址:https:github。comFLC777GLAT
  设计动机和方法
  自回归模型中最为常用的训练方式是最大似然估计(MLE),不少非自回归模型也直接使用MLE进行训练。但是非自回归模型的输出方式是并行的,输出语句中的任何部分在输出之前都无法获得输出语句中其余词的确切值。所以直接使用MLE训练并行输出的非自回归模型无法有效地建模输出语句中词之间的依赖关系。值得注意的是,词之间依赖关系的建模对输出通顺的语句至关重要,拥有良好生成质量的自回归模型和多轮迭代解码的模型均对这种依赖关系进行了有效的建模。
  直接训练完全并行生成来学习目标语句中词之间的依赖关系对模型并不友好。一种更为简单有效的依赖关系学习方式是根据部分输入词预测其余目标词。但是这种学习方式需要部分目标词作为输入,不符合非自回归模型并行生成的要求。作者观察到随着模型自身更好地学习到词之间的依赖关系,模型对于依赖关系的学习可以逐渐摆脱使用目标语句部分词作为输入的需求。基于以上观察,GlancingTransformer(GLAT)利用了一种glancinglanguagemodel的方法,通过渐进学习的方式进行词之间依赖关系的建模。在渐进学习的过程中,模型会先学习并行输出一些较为简单的语句片段,然后逐渐学习整句话的单步并行生成。
  GLAT在输出时和常规的非自回归模型保持一致,均只使用一次并行解码来输出语句。而在训练时,GLAT会进行两次解码:
  (1)第一步解码(GlancingSampling)主要根据模型的训练状况来估计模型需要看到的目标词的数量,然后采样相应数量的目标词并替换到解码器输入中。
  (2)第二步解码时GLAT会基于用目标词替换过后的解码器输入来让模型学习剩余词的输出。模型只在第二步解码时进行参数更新(Optimization),第一步解码仅输出语句。
  具体地,在第一次解码的时候,和常规的非自回归模型一样,模型使用完全并行解码的方式输出语句。然后将第一次解码得到的输出和训练数据中的目标语句进行对比。如果输出和目标语句差距较大,说明模型在训练中难以拟合该训练样本,因此这时GLAT会选择提供更多目标词作为输入来帮助学习词之间依赖关系。反之,如果输出和目标语句比较接近,则模型自身已经较好地学习了如何并行生成该目标语句,所需要的目标词数量也相应减少。
  在第二步解码之前,模型的解码器可以得到部分目标词作为输入,这些词的数量由第一步的解码结果所决定。这时,模型在并行输出之前可以获得部分目标词的确切值,所以在学习输出剩余目标词的过程中就可以对目标语句中词之间的依赖关系进行建模。
  上图给出了模型训练中的两个例子(注意模型只有一个decoder,在训练中进行了两次decoding)。当模型还不能准确地生成目标语句时,GLAT会在目标语句中随机采样目标词作为解码器输入。例如上图左边的例子中,模型的翻译结果是traveltotoaworld。GLAT将该结果和目标语句travelallovertheworld进行对比,发现当前结果较差,仅有两个词和目标语句相同。因此GLAT随机采样了词over,并把over的词向量替换到相应位置的解码器输入中。
  随着训练的进行,模型对数据拟合程度更高,因此能够更准确地生成目标语句。与此同时,需要作为解码器输入的目标语句中的词的数量会越来越少,在训练后期逐渐接近学习完全并行生成的训练场景(例如上图右边的例子)。具体的方法细节和实现方式可以参考论文。
  效果分析
  GLAT在保持高效生成速度的同时显著提升了单步并行输出的翻译质量
  在多个翻译语向上,GLAT均取得了显著提升并超越了之前的单步并行生成模型。结合reranking和CTC等技术之后,GLAT可以只使用单步并行生成就达到接近自回归Transformer的翻译质量。由于GLAT只修改训练过程,在翻译时只进行单步并行生成,因此保持了高效的生成速度。
  GLAT提升了非自回归模型在长句上的翻译质量
  通过对比不同输入长度下的翻译质量,我们发现相比于常规的NAT模型(NATbase),GLAT显著提升了在长句上的表现。除此之外,我们还发现在输入长度较短时,GLAT的效果甚至略优于自回归的Transformer模型(AT)。
  案例分析
  GLAT和自回归的Transformer在翻译结果上各有优劣。通过案例分析,我们可以发现Transformer在翻译时可能会产生部分漏翻的情况,而GLAT在语序调整上不如Transformer。
  总结
  该工作提出了GlancingLanguageModel(GLM),一种为单步并行生成方式建模词之间依赖关系的方法。在多个数据集上的实验显示使用了GLM的模型GLAT可以大幅提升并行生成的质量,并且仅使用一次并行输出就可以达到接近自回归模型的效果。GLAT已经在火山翻译的部分语向上线。此外,基于该技术的并行翻译模型在WMT2021比赛中的德英语向上取得了第一。
  〔1〕JiataoGu,JamesBradbury,CaimingXiong,VictorO。K。Li,andRichardSocher。Nonautoregressiveneuralmachinetranslation。ICLR2018
  〔2〕JasonLee,ElmanMansimov,andKyunghyunCho。Deterministicnonautoregressiveneuralsequencemodelingbyiterativerefinement。EMNLP2018
  〔3〕MarjanGhazvininejad,OmerLevy,YinhanLiu,andLukeZettlemoyer。Maskpredict:Paralleldecodingofconditionalmaskedlanguagemodels。EMNLPIJCNLP2019
  〔4〕JiataoGu,ChanghanWang,andJunboZhao。Levenshteintransformer。NeurIPS2019
  〔5〕LihuaQian,HaoZhou,YuBao,MingxuanWang,LinQiu,WeinanZhang,YongYu,andLeiLi。Glancingtransformerfornonautoregressiveneuralmachinetranslation。arXivpreprintarXiv:2008。07905(2020)。
投诉 评论 转载

有多少颗卫星绕地球运行?绕地球运行的数千颗卫星都很小,就像这里看到的从国际空间站释放出来的立方体卫星。似乎每周都有一枚火箭被发射到太空,将火星车、游客或最常见的卫星运送到太空。太空越来越拥挤的想……人体内超2亿像素的感光原件就是被你们这样玩坏的我们人体内超2亿像素的感光原件就是眼睛,眼睛结构由前到后,分别是角膜,前房、虹膜、晶状体、玻璃体、视网膜等。在我国,近年的近视率越来越高,究其原因跟我们生活息息相关,长时间不科……Allmicroalgae扩大了以藻类为基础的成分的获取途径一起来探索宇宙的奥秘Toexploreuniverse我们看到的从很远星系来的光是在几百万年之前发出的,在我们看到的最远的物体的情况下,光是在80亿年前发出的。这样……苏炳添在东京奥运会选拔赛上以9。98秒的成绩获得冠军据媒体报道,苏炳添在绍兴东京奥运会中国田径选拔赛中以9。98秒赢得100米冠军,证实了他的强悍状态。这位31岁的中国运动员是第一位在短跑中跑出10秒以下的运动员,他于4月……2021年6月30日,星期三J阴五月廿一(辛丑甲午己酉)黄历新说己土柔顺,喜欢阳光照耀,生在夏天午月,火土相生,易得贵人相助,利于强大自我,努力前行。今日吉祥,适宜拜会尊长、求助疏……3800万人退出社保,很多人坦言,每年花6000元缴社保并不小编一直觉得长远投资是一件正确的事情,是一种非常有远见的做法,在2015年时曾经有一项调查,显示在前一年有近3800万人中断了社保的缴纳,而这些中断缴纳社保的让你看似是个人自己……易经女人是一个家庭的风水,女主人有这3个特征,家庭不旺都难《周易》被很多人简单地认为是一部算命的书,除了占卜吉凶,《周易》给我们带来的更多的是其所蕴含的哲学思想。《周易》建立在阴阳二元论基础上,对事物运行规律加以论证和描述。我们……清华博士将北斗卫星编码,送给美国,郑强教授这番话一针见血科技人才对于每个国家的重要性可以说不言而喻,在这个现代化发展的趋势中,科技实力成为衡量一个国家能力最为关键的标准,那么科技人才更成为最核心的竞争力。说起那位清华博士将北斗卫星编……善良是人类意识的普遍性但不是本性善良不是人类的本性,人类的意识本原,犹如中性的水,不善不恶。人类的本原意识是求生,在求生的过程中,衍生出各种有利于生存的意识。善良是人类意识的普遍性,属于人类良知的一种。……大胆去放别人鸽子?对,2020年你就应该这么干当你两个月都没有见到理发师、而只能自己买推子推自己的头发、并导致你的头看上去像被一只活了十年的狗咬过、对着镜子里的自己濒临崩溃之后,最近你终于有机会戴上口罩去了一趟理发店……测试人员必看的高效数据库备份大法测试工程师在测试软件的过程中,不仅需要在界面上操作,还需要检查数据库中的数据是否正确。从而在软件出问题时,能够定位出问题的原因。所以,测试人员需要经常进行数据库操作。在数……ACL2021字节跳动GlancingTransformer机器之心专栏作者:钱利华本文提出了一种为单步并行生成进行词之间依赖关系建模的方法。基于该方法的模型GLAT在不久前的国际机器翻译大赛(WMT2021)上击败一众自回……
今年前5个月越南新成立企业数量猛增年度掉落数没用完?印度米格21再次坠毁,成就过空战英雄选对造句用选对造句大全比亚迪半导体被中止上市审核并蒂荷花饶毅问题本质在于中国人缺乏互信清雅居士命理上看抑郁症是怎么产生的向郑德荣同志学习主题实践活动总结豆蔻年华的少女性保护怎样确保露天提子安全越冬杨利伟在太空听到神秘的敲门声,13年后,专家终于找到答案优化对企业推广有何作用
女生短发图片印尼电商平台Tokopedia融资10亿美元估值70亿美元桌面端Word新增MicrosoftEditor语法检查器胡歌现实生活中时尚发型盘点笠翁对韵读后感600字内心强大从何而来5月20日,张柏芝拍摄浪漫封面大片,王子文何超莲解锁新姿势描写不怕困难的名言句子大龙网入围信息技术外包和制造业融合发展重点企业SKU增删对权重的影响介绍侵犯名誉权起诉状怎么写一个产品从滞销到畅销只需十个小技巧

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西