Transformers长程上下文综述

字幕组双语原文:Transformers 长程上下文综述

翻译:雷锋字幕组(wiige)

但在季浏看来,在等待政策“雨点”落下的过程里,体育老师可以先尝试改变现有的课堂,“不少学校的体育课是一种无运动量、无战术、无比赛的‘三无课堂’,体育课运动强度和运动量的安排离科学、有效还有不小差距”。

为鼓励模型只在有益的地方使用额外上下文,对习得的z值施加了ℓ1惩罚。

但钟秉枢也注意到,在考试内容中有部分学生体质健康标准测试中已经涵盖的内容,重复测试或许会加重学生的考试负担,他建议,可以直接引用体质健康标准测试的结果,把精力更多用于改革和强化专项运动技能的测试,“专项技能需要真正和‘掌握一两门运动技能’联系起来,而不是把运动技能割裂成运动动作。”

“中考体育绝不是像语文、数学、外语那样专注于检验课程教学结果,还包括了学生体质健康的部分。”钟秉枢表示,既然要挥舞考试的“指挥棒”,就需要扩大对中考体育的认识,“体育中考不是体育课的中考,而是涵盖学生体质健康标准加上体育课教学效果的考试。”他进一步解释,“实际上是对整个学校教育工作的考核,对大体育观的考核”。

根据相关安全条例,每位参与F1运动的人都需要定期接受新冠病毒核酸检测,一旦出现检测结果呈阳性的人,他们将被迅速隔离,同时在围场中每个人都必须遵守严格的社交距离规范。(完)

按照Transformer-XL的做法,当前序列可以关注已存储的前段的激活。此外,在同样的多头注意操作中,当前段中的词符可以关注存储在 “压缩记忆 “中的第二组状态。

“如何做好专项技能测试特别需要技巧,否则就会出现不同年级学不同的考试内容,几年下来学生什么技巧都考了,足球考试分数很高,但依然不具备上场能力。”钟秉枢表示,“教改强调学科的教学需在情景中完成,因此,运动技能的考试如何把真实情景跟这些环节有效结合十分关键”。

2012年12月,年仅44岁的吕家进出任邮储银行执行董事、行长;2016年5月至2019年1月任中国邮政集团公司副总经理兼中国邮政储蓄银行股份有限公司执行董事、行长。

在他们的实验中,压缩记忆的尺寸为512,正常记忆尺寸为512,窗口尺寸为512,压缩率为2——意味着在压缩步骤中,最早的2个记忆状态将被压缩为1个状态。在这个设置下,他们在WikiText-103上实现了17.1的SOTA困惑度。

这次落实到分数上的重视,是自2016年教育部印发《关于进一步推进高中阶段学校考试招生制度改革的指导意见》首次在全国范围内提出“体育成为中考必考项目”后,再一次对体育“第四主科”面貌的刻画。

例子: BERT习得的注意力模式

此后,王浩分别于2014年8月、2016年8月出任建行青海省分行副行长和贵州省分行行长;2018年6月至2018年12月任该行湖北省分行行长,2018年12月至2020年7月任该行湖北省分行行长兼建行大学华中学院院长。

重要的是,离散化注意力结构似乎不会对语言模型的性能产生负面影响,它的每字符比特数比enwiki8上的密集注意力(令人惊讶地)更高,且可以在高达12228个词符的上下文上产生有效的注意力。  

基层体育老师期待的“雨点”最先在于课时。“《方案》中对于学生的考核内容不是特别难,但要保证学生能达到考核要求,还需在一周三节体育课的基础上增加1-2节课,如果课时难以增加,希望能挤出下午放学时间给体育老师适当为学生补课。”钟伟表示,从教多年,他切身感受到学生体质“一届不如一届”,他以长跑为例表示,20年前女生800米满分为3分20秒,“现在已经调为3分38秒,很多孩子仍难达到,不提新生,初二的孩子还有不少连4分20秒都达不到,男生的情况更糟糕。”在他看来,如果再加上对运动技术的强调,势必需要学校给予学生更多运动时间的支持。

体育中考“考的是学校体育”

当使用相对位置嵌入时,作者将式子改成如下形式:

注意力工作细探与实验结果

以足球考试内容为例,七年级为颠球、1分钟正面挡板传接球、运球绕杆射门;八年级为颠球、定点踢远、挡板传接球转身运球绕杆射门;九年级为1分钟正反挡板连续传球、定点踢准、两侧挡板传球接运球绕杆射门。若延续以往“以考定教”的情况,这样的专项技能测试很容易造成学生学习运动技能环节的割裂。

根据《方案》,云南体育中考的100分由初一20分、初二40分、初三40分三部分构成。每学年得分均由上学期得分、下学期得分和竞赛加分组成;将考试由原来的“三年一考”变为“一年两考”,每学期均采用“随时考”和“定时考”相结合的方式;考试内容包括基础体能测试、专项技能测试、体质健康监测和竞赛加分4个部分。

然而,可变窗口大小在便于并行方面并不理想,我们通常希望密集的、尺寸规整的矩阵来实现最佳性能。虽然这种方法可以大幅减少预测时前向计算所需的flops数量,但作者只提供了模糊的性能估计,并表示自适应跨度的实现能够以2048个上下文词符的固定上下文大小模型的速度最高处理8192个词符  。 

一半的头只关注短的局部上下文,而另一半则预分配均匀分布在整个序列中的索引。

由于在训练过程中必须缓存激活,以便进行梯度计算(除非使用梯度检查点这种激活再计算策略),因此仅存储这些12层的BERT-Base注意力矩阵,每个样本就要消耗约150MB的内存。 当序列长度为1024时,这就上升为约600MB,而序列长度为2048时,每个样本仅存储注意力矩阵就已经消耗了约2.4GB的内存。这意味着训练时的批处理尺寸(batch size)更小,并行性更差,进一步阻碍了模型利用长距离上下文的能力。

根据《方案》,体育中考的体质健康监测包括:体重身高指数(BMI)、肺活量体重指数、视力,这三项每学年监测一次。赋分方式是通过学生自身初一、初二、初三健康指数的纵向对比进行赋分。

将过去的记忆逐渐压缩成压缩记忆——图片由 DeepMind  博客提供

通过这些聚合索引来传递信息,网络就能够从较远的词符获取信息并利用长距离上下文,同时将时间和空间复杂度降低到O(n√n)。最重要的一点是,只需要两层隐藏层,任意词符就都可以整合来自其他词符的信息。

经典自注意力带来的益处是,其高连通性使得信息在词符之间很容易传递——只需要一层注意力就可以聚合任意两个词符的信息。 但如果我们放宽这一约束,保证两层内信息可以在任意两个词符之间传递即可的话,就可以大幅降低按序列长度增长的复杂度。稀疏Transformer通过利用固定注意力模式的自定义核来实现这一目标。

“这是体育老师的高光时刻。”从教近30年的体育老师钟伟(化名)对中青报・中青网记者表示,长期以来,体育在升学评价体系中所占份额不高,正是各学校在增加课时、补齐师资、提升硬件设施等方面缺乏直接动力不可忽视的原因,但作为《方案》的执行者,这些需要时间清理的积弊也正成为他跟上改革步调遇到的绊脚石,“开学已经两个月,‘雷声’让我们很振奋,现在期待‘雨点’尽快落下。”

“考试考什么学校教什么就是真正的‘应试体育’。”季浏强调,在实施体育提分政策,形成整体趋势前,要警惕“以考定教”带来的弊端,“如果不将思想转变为‘以教定考’,‘100分’或许会加速学生对体育课产生负面情绪、甚至对体育项目丧失兴趣,产生与体育中考改革初衷背道而驰的结果。”

据其履历来看,吕家进在交行也仅任职一年半,在此之前更多供职于邮政储蓄系统。公开资料显示,吕家进出生于1968年9月,1988年7月至2007年5月,其先后在河南省邮政储汇发行局、河南省邮电管理局工作,之后历任河南省邮政储汇局副局长、局长,新乡市邮政局局长,河南省邮政局副局长、辽宁省邮政局副局长以及国家邮政局邮政储汇局副局长。

值得一提的是,7月20日,交通银行才发布公告表示,吕家进因工作调动原因辞去其副行长职务,辞任自当日生效,第二天无缝衔接建行副行长一职。

Arm是一家为几乎所有移动设备提供芯片的公司。今年7月,Arm曾对外表示,将向软银转让其物联网服务集团旗下的两个部门,并计划在9月前完成转让。

在一个典型的自注意力操作中,输入序列中的每一项都会关注到输入序列中的所有其他项,从而形成如下的注意力模式:

在b)和d)中,Uj已经被它的相对位置嵌入Ri-j替换.

密集多头注意力的时间和空间复杂度

如果想在自己的项目中采用固定注意力核,可以查看OpenAI的blockparse库以及作者发布的配套示例。

为了使相对位置编码的使用变得简单,他们将从键和查询中产生注意力权重的操作进行了分解。对于一个典型的密集注意力操作,pre-softmax注意力权重可以如下分解:

日前,教育部发布消息称,将强化体育、美育在学生评价中的占比。学校的体育中考要不断总结经验,逐年增加分值,要达到跟语数外同分值的水平。

在钟秉枢看来,此次提升的是中考体育的分值,但需要随之作出反应的不仅是中学校园,例如,近视的预防、养成体育兴趣等需要从小学甚至更早抓起,高校的体育教育人才培养也必须与时俱进。“教师培养单位必须关注国家政策和实际要求的变化,在体育教师的培养中要有意识地增加相应的科学研究方法、技能测试方法、体质监控方法等,让我们未来的体育教师能很快胜任这些工作。”(中青报・中青网记者 梁璇)

要想让Transformer-XL模型利用这样的长程上下文,每一层至少有一个头要利用其注意力跨度的全部上下文。 平均注意力权重图显示,每一层都有头主要关注先前的位置。

换句话说,他们学习了一个函数fc,通过最小化压缩记忆的注意力(C-1=fc(Mold))和正被压缩的正常记忆状态的注意力之差,将n个最早的记忆状态压缩为一个压缩记忆状态。:

2007年3月至2012年12月,吕家进担任中国邮政储蓄银行有限责任公司执行董事、副行长,期间该行由有限责任公司整体变更为股份有限公司。

DeepMind博客上的一个gif很好地说明了这个过程:

“我们的好多体育课是不出汗的,大多数学生学了12年,甚至14年的体育课,一项运动都不会。”国家中小学体育与健康课程标准研制组组长季浏对中青报・中青网记者表示,不少地方对单个技术和组合技术的考察,远远达不到正常体育比赛的基本要求,“考试除了考学生单个技术外,更应该考察学生的比赛能力,体育运动如果缺乏对抗和比赛,学生不仅无法完整掌握运动技能,也完全感受不到运动带来的体育精神和人格培养的锻炼。”

(b) 将查询的内容与键的位置相关联

此外Transformer-XL论文还测量了有效上下文长度对困惑度的影响,并发现增大上下文长度至~900个词符时会产生更好的困惑度得分——这进一步证明了循环机制在实践中的有效性,而非仅仅停留于理论。

使用具有固定上下文大小的标准变换器,处理长输入时需要将输入分割成块(或称段)分别处理。然而,这种方法有一个局限,即前一段的信息与当前段的词符无关。 这种段独立性在某种程度上是有益的,因为它让我们能分批地有效处理每一段,但如果目标保持是长序列的一致性,这就会成为一个很大的限制。

DeepMind团队尝试了多种压缩操作(包括平均池化、最大池化和学习卷积等等),但最终决定训练一个二级网络来重建缩记忆中基于内容的注意力矩阵。 

在这些限制条件下,大部分的头都会选择关注1000个字符的上下文。

注意力工作细探与实验结果

“现在很重要的问题是家校体育工作做得不好,我们往前拉一下,家长往后拉两下,包括其他学科的老师也是一样,需要给体育更多发挥教育作用的空间。”全国学校体育联盟(教学改革)主席、北京师范大学教授毛振明对中青报・中青网记者表示,“体育考试改革要考出体育在学生全面发展中应有的地位和功能,而且要有一定的强度和力度,才能把体育考到家长、学生、校长以及其他教育同仁的心里头去,要认可,要重视。”

希望“雨点”尽快落下

增加体育中考分值,促进全社会来重视体育,从而引导学生积极锻炼,“既是无奈之举,也是最有效的办法。”季浏表示,“有质量的体育课堂是让体育中考真正发挥指挥棒作用的基础”。

自适应窗口Transformer通过对序列进行遮罩,使每头习得的上下文之外的词符贡献迅速消失。 遮罩(M)与softmax操作的对数相乘,使某些词符对当前隐状态x的贡献归零,其中超参数R控制最小窗口(span)大小。

多头注意力对序列长度的伸缩性很差,原因有二: 首先是计算注意力矩阵所需的FLOPs按序列长度的平方暴增,导致对单个序列的自注意力操作的计算复杂度为O(hdn²),其中h是注意力头数,d是key和query的维度,n是文本序列的长度。第二点是,点积自注意力操作的空间复杂度也按序列长度的平方增大。 计算注意力矩阵的空间复杂度为O(hdn+hn²)——第一项是存储key和query所需的内存,第二项是每个头得出的注意力标量值。

让我们向BERT-Base代入具体的数字来了解哪些项的开销占大头。 BERT-Base使用的序列长度为512,隐藏层大小为768,12个头,这意味着每个头的维度为64(768 / 12)。 在这种设置下,需要393216 floats(约1.5MB)(头12个*头大小64*序列长度512)来存储键和值,而存储所有头的注意力标量所需的空间为3145,728 floats (12*512*512)即约12MB的内存——几乎10倍于键存储的空间开销,这还仅仅是仅仅512个上下文词符。

而另一位副行长王浩于1993年7月毕业后就进入建行四川省分行直属支行工作,历任四川省分行直属支行行长助理、副行长,个人银行业务处副处长(主持工作),个人银行业务部总经理以及分行行长助理等,2008年担任四川省分行副行长。

在2016年,电信运营商软银基团以320亿美元收购了Arm,这是其有史以来最大的一笔收购。收购的部分原因是为了进军“物联网”领域。“物联网”可将生活中的日常设备诸如交通信号灯、冰箱等等与互联网连接起来。

他们没有将这种压缩操作与主语言模型联合训练,而是选择在一个单独的优化循环中更新压缩网络。因为让注意力状态容易被压缩,对降低语言模型的损失会起到反作用。

典型的自回归设置下的自注意力连接模式。深蓝色方块代表 “查询(query)”,浅蓝色方块代表 “键(key)”

待上述两位副行长任职资格在银保监会备案、核准后,建行高级管理层以行长刘桂平为主,副行长章更生、纪志宏、吕家进、王浩为辅的领导班子则正式形成。

“提升课堂效率,分班上课也很重要。”体育老师薛丽萍(化名)表示,她所在的学校一度实行男女生分开教学,但随着体育师资紧缺和场地条件老化等问题显现,一位体育老师面对的学生数量陡增,教学效率明显下降,“一节文化课,老师出道题,所有学生可以同时做,但体育是室外教学,场地器材有限,老师还要逐一规范动作,这些特殊性需要学校给予更多关注”。她表示,如果校领导、文化课老师及家长无法尊重体育规律,仍按文化课的评价体系评价体育课,提高中考分数带来的“压力”也许会先于“地位”让体育老师感受到。

2020年秋季入学的云南初一新生将成为首批“体育中考100分”的践行者。这一消息对当值体育老师而言“痛并快乐着”。

然而,提50分是否能真正实现体育的“主科地位”?关键在于分数能否换来学校、家庭和社会对体育重要程度的认知,从而真正撬动学校体育的天平,帮助学生由“被动应试”向“主动锻炼”倾斜。

“相比以往单一的以技能为主或以身体素质为主的考试,这个考试内容更加全面地反映了学生的体质健康和上体育课后的状态。”首都体育学院校长钟秉枢对中青报・中青网记者表示,考试时间的调整也给了学生在3年过程中成长的机会,考试将更加注重过程性,避免一考定成绩。

除了巧妙的缓存机制,这种对长上下文的惩罚使得自适应窗口高达8k个字符,同时仍然保持模型的整体计算成本可控。此外,它在基线上的性能仍然很高——在enwiki8上达到了0.98比特/字符,text8数据集上达到了1.07比特/字符。

(a) 将查询的内容与键的内容相关联

Transformer-XL还引入了一种新颖的位置编码方案,称为 “相对位置编码”。 不是简单地将内容和绝对位置嵌入的和输入网络,而是将每层的注意力操作分解为基于内容的部分和基于相对位置的部分——如果一个段中的第512个词符要关注第511个词符,它的相对位置嵌入就是-1。

在每一步中,最早的压缩记忆被丢弃,压缩记忆向后移动一个索引。 然后,来自正常记忆段中最早的nn个状态进行压缩,然后转移到压缩记忆新空出来的槽中。

对于包含查询位置的项,我们将矩阵UiUi替换为两个新学习参数uu和vv。这些向量可以理解为两个不依赖于查询具体细节的偏置——cc鼓励多关注一些项,dd鼓励多关注相对位置。 作出这种替换是因为对自身的查询其相对位置保持不变。

“重视学生健康非常好,但一定要明确体质健康不是单靠体育课就能解决的。”钟伟表示,希望“雨点”落下时,能对体育老师的课程评价加以明晰,“如果动作标准不达标是体育老师的责任,但健康指数需要学校、家长、社会和我们一起动起来。中考提分确实调动了体育老师的积极性,但大家重新认识体育才是我们最希望看到的。”

为了避免存储所有段的激活,作者阻止了梯度流向之前的段。

(c) 将查询的位置与键的内容相关联

固定的稀疏Transformer。深蓝色方块代表查询,中浅蓝色方块代表奇数层注意力键索引,最浅蓝色的方块代表偶数层关注的关键索引。

可以看到,稀疏Transformer的注意结构之所以有效,部分原因是因为这种注意力模式与真正习得的密集注意力并没有什么不同。 Kevin Clark, Urvashi Khandelwal, Omer Levy, 和 Christopher D. Manning在他们的 “What Does BERT Look At? An Analysis of BERT’s Attention”  一文中探究了密集注意力所习得的模式,试图弄明白注意力在Transformer模型中承载了什么功能。他们发现注意力头倾向于关注紧接在前的词符(类似于稀疏注意力中的局部注意力模式),以及如[SEP]和句号的特定词符。所以,也许稀疏Transformer的注意力模式中包含的归纳偏差是有用而非有害的。

由于利用较长序列长度的收益通常是长尾的,他们特别研究了不同词频下的困惑度,发现在最稀有的词符上的收益尤其显著:

上式中,Exi是词符在位置i的基于内容的嵌入,Uj是词符j的位置嵌入。

(责编:(实习生 张玉)、何淼)

与前几周相比,检测人数的减少是由于在此期间没有F2和F3的比赛。国际汽联或F1表示将不提供有关车队或个人的具体细节,结果将每7天公布一次。

将中考体育从50分提升到100分,云南成为全国首个“吃螃蟹”的省份。在云南就《云南省初中学生体育考试方案(征求意见稿)》(以下简称“《方案》”)举行听证会后,陕西省推出新的中考方案,同样增加了体育的比重。

Transformer-XL通过强制进行分段串联来克服这一限制。 在第一段之后,后续段中的词符将始终保持512个词符的上下文尺寸,之前段的激活作为上下文传递给后续段的注意力操作。 这意味着来自NN上下文大小*LL层外的信息可以传播到一个给定的令牌。 假设上下文尺寸为640,模型有16层,理论上Transformer-XL可以纳入10,240个词符的信息。

(d) 将查询的位置与键的位置相关联

多头自注意力开销很大,这已经不是什么秘密了——序列长度的O(n²)复杂度意味着不太可能让经典的Transformer模型处理超长文本序列。在过去的两年里,NLP社区已经开发出了名副其实的缝合怪方法来应付这种复杂性,但这篇文章将重点介绍在大规模下更有前景的方法。

RELATED POST

生态环境部“十四五”期间着力推动构建生态环境治理全民行动体系

中新网北京11月5日电(记者 阮煜琳)中…

U19男足再集结成耀东带队将参加中乙联赛

中新网9月11日电 中国足协网站10日发…

国际航协旅客在航空旅行中拒戴口罩将面临处罚风险

近日国际航空运输协会在其官网上呼吁,在新…

银行理财还值得投资吗

原标题:银行理财还值得投资吗?自2018…