谷歌ampampampHuggingFace零样本能力最强的语言模型结构

　　本文  约2000字  ，建议阅读 5分钟
　　要是为了模型的 zero-shot 泛化能力，decoder 结构 + 语言模型任务最好；要是再 multitask finetuning，encoder-decoder 结构 + MLM 任务最好。
　　从 GPT3 到 Prompt，越来越多人发现大模型在零样本学习（zero-shot）的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。
　　但有一件事让人非常疑惑：19 年 T5 通过＂调参＂发现，设计预训练模型时，Encoder-Decoder 的模型结构 + MLM 任务，在下游任务 finetune 效果是最好的。可是在 2202 年的当下，主流的大模型用的都是仅 decoder 的模型结构设计，比如 OpenAI 的 GPT 系列、Google 的 PaLM [1]、Deepmind 的 Chinchilla [2] 等等。这是为什么？难道这些大模型设计都有问题？
　　今天带来一篇 Hugging Face 和 Google 的文章。这篇文章与 T5 在实验上的思路相似，通过大量对比设计，得到一个重磅结论：要是为了模型的 zero-shot 泛化能力，decoder 结构 + 语言模型任务最好；要是再 multitask finetuning，encoder-decoder 结构 + MLM 任务最好。
　　除了找到最好的训练方式，作者通过大量的实验，还找到了最好的同时还能最节省成本的训练方式。训练计算量只需要九分之一！
　　论文题目:
　　What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
　　论文链接:
　　https://arxiv.org/abs/2204.05832
　　模型设计
　　模型设计可以分成图中的四个方面，即选什么结构？什么训练目标？要不要搞 adaptation？multitask finetuning？文章还在两个 benchmark 进行了评测。
　　模型结构 Architecture
　　模型结构都基于 transformer，有三个选项，如图所示：
　　Causal decoder-only (CD)：直接只用 transformer decoder。这类模型大多使用语言模型的训练目标，即通过上文预测当前 token。代表作有 GPT 系列。 Non-causal decoder-only (ND)：为了能在给定条件下生成或基于输入生成，训练时可以让前面一部分 token 可见。 Encoder-decoder (ED)：这就是原始 transformer 的结构，输入一个序列，encoder 输出同样长度的向量表示序列，decoder 基于 encoder 的输出做有条件的自回归生成。
　　小结一下，CD 是只用 decoder，ND 是给提示的 decoder，ED 是 encoder-decoder。后面将用缩写表示。
　　训练目标 Objective
　　与模型结构对应，训练目标也有三种：
　　Full language modeling (FLM)：CD 类的模型架构常用 FLM，通过上文预测当前 token。在训练时，每个 token 可以并行计算出 loss，预测时要迭代预测。 Prefix language modeling (PLM)：ND 类和 ED 类的模型架构可以用 PLM。首先在 attention 矩阵中定义一段 prefix，训练时要求模型生成 prefix 后面的 tokens。 Masked language modeling (MLM)：只用 Encoder 的模型常用 MLM 目标。后来在 T5 这个 seq2seq 模型里，也使用了整段 mask 的 MLM 任务。
　　小结一下，FLM 就是语言模型目标，PLM 是带提示的语言模型目标，MLM 是掩码目标。后面也会用缩写表示。
　　适应任务 Adaptation
　　适应任务是预训练之后，换一个新的训练目标，继续训练。与 finetune 不同的是，适应的过程并没有使用新的下游任务的数据，只是继续使用预训练的数据。适应任务也可以分成两类。
　　Language modeling adaptation (LM-A)：预训练用 MLM，后面再用 PLM 或 FLM 继续训练。MLM + FLM 就是 T5 采用的方式，而 MLM + PLM，就是之前非常火的连续化 prompt-tuning 的方法，比如 prefix-tuning 等等。 Non-causal MLM adaptation (NC-A) ：预训练用的是 PLM，后面再用 FLM 继续训练。这个方法是本文首次提出的，给 decoder 前面一部分 prefix 固定住，用 PLM 目标训练，相当于给 GPT 做 prefix-tuning。
　　多任务微调 Multitask finetuning
　　多任务微调 multitask finetuning (MT-F) 是 Hugging Face 去年年底的工作 [3]，即拿到预训练模型，给他在 171 个任务上用 prompt 的方式同时 finetune。这种方式可以极大地增加预训练模型的 zero-shot 能力。
　　实验和结论
　　评测任务
　　这篇文章用了两个 benchmark：
　　EleutherAI LM Evaluation Harness (EAI-Eval)：这个任务是用来评测语言模型（也就是本文中使用 FLM 训练目标的模型）的 zero-shot 能力。 T0 的测试集 (T0-Eval)：就是 Hugging Face 之前 multitask finetuning 工作使用的测试集。
　　这两个测试集都是用 prompt 的方式进行测试，即直接构建 prompt 输入给预训练模型，让模型生成预测结果。两个测试集不同的地方在于，EAI-Eval 的每个任务只给了一个 prompt，因此评测受 prompt 波动影响比较大，因此在本文的测试里，作者们为每个任务多设计了一些 prompts，来消除随机性。
　　结论
　　实验得到如下结论：
　　只无监督预训练时：
　　CD 的模型结构 + FLM 训练目标 = zero shot 最好的模型。
　　这里就跟现在的大模型对上了。大模型都用的是这个组合，有最好的零样本泛化能力。
　　预训练之后再加上多任务微调时：
　　ED 的模型结构 + MLM 训练目标 = zero shot 最好的模型。
　　这张图左右表示两个评测集。每张图上都有九个点，代表九个模型架构和训练目标的组合。左边 T0-Eval 上结果非常明显：可以将九个组合分成三组，左边是几个 baseline，中间是三种模型结构 + 语言模型训练目标，右边是三种模型结构 + MLM 训练目标。可以明显看到，MLM 训练目标明显更好，MLM + ED 最好。
　　适应任务的作用：
　　预训练之后，换一个新的训练目标，继续训练，这带来的主要是训练成本的降低。比如左图，本身我们想要一个 CD + FLM 的结合，那就先训一个 ND + MLM，然后改成 CD + FLM 再做适应任务，这样可以总体提速 1.6 倍。
　　经过一系列实验，作者最后总结出一个结论：如果想最低成本的构建效果好的大模型，那就用 CD + FLM 预训练，然后再改用 ND + MLM 做适应任务，最后再使用多任务微调。这样的训练方式要比直接训练提速 9.1 倍，同时效果最好。
　　总结
　　这篇文章跟 T5 非常像，也是用调参的感觉在设计实验，最终找到最好的模型设计和训练方式。这样的论文读下来也感觉逻辑清晰严谨。
　　但是从另外一个角度想，这样的文章似乎也有些无聊：现在大模型的使用，变成了找 prompt 的特征工程。这篇文章的训练和设计也变成了调参，而失去了创新的灵机一动。这可能代表了大模型领域的内卷吧。
　　参考文献：
　　[1] Aakanksha Chowdhery, et. el., ＂Palm: Scaling language modeling with pathways.＂, https://arxiv.org/abs/2204.02311  [2]Jordan Hoffmann, et. al., ＂Training Compute-Optimal Large Language Models.＂, https://arxiv.org/abs/2203.15556[3]Victor Sanh, et. al., ＂Multitask Prompted Training Enables Zero-Shot Task Generalization＂, https://arxiv.org/abs/2110.08207

北京冬奥会印度仅一名选手，为备战推迟婚礼高山滑雪选手阿里夫可汗（ArifKhan）是印度代表团唯一获得北京冬奥会参赛资格的运动员。为了在奥运赛场实现梦想，他推迟了本要在去年举办的婚礼。据印度zeenews29日报道，现年现役有谁有望打破科比81分的神迹？我们看看麦迪怎么说的最近在一次采访中，麦迪认为现役仅3个人可以打破科比81分的神迹，他们分别是布克，尼克杨，哈登。至于杜兰特和詹姆斯，麦迪认为，杜兰特身体素质非常不错，但是体力完全不行，经常打到三节体高山滑雪医疗队是白衣天使更是全能战士北京冬奥我们来了高山滑雪是冬奥会中速度最快的项目，特别是竞速赛，运动员从山顶下冲的最快速度可以达到140公里小时，受伤发生率高达15到20，不但是雪上项目中受伤率最高的一个，也是医小米在2021年全球及国内手机市场表现最均衡！都是第三名调研机构开始陆续发布2021年的手机市场数据了，这一年中，各大手机厂商表现如何被彻底的揭晓。有意思的是，在全球和国内市场中，许多手机厂商的排名不同，有的国内市场表现较好，但全球市场手工耿最新力作！27000000毫安巨型充电宝60个插口近日，发明界泥石流带来最新力作，分享了新发明自制了27000000毫安时的超大巨型充电宝。27000000毫安巨型充电宝点击查看原视频通过视频展示，他购买的似乎是类似电池的平板式大肺部有结节的人，晚上睡觉会有什么现象发生？看完记得早治疗导语我们的肺部是用来交换氧气的，每天我们都会吸入很多空气，同时在吸入的时候，我们也会排出一些不好的气体，只有这样一天天的循环，我们才能够正常生活，所以说，一旦我们的肺部出现问题，那02！中国男足缺乏血性输日本，没有射门日本门将冻感冒了李霄鹏出任中国男足主教练的时候，很多球迷是充满各种期待的，甚至是幻想能够客场拿下日本男足的，认为李霄鹏会给中国男足带来翻天覆地的变化吗，会对中国男足进行大手术，去除那些能力不足的，中国男篮孙铭徽人设崩塌，深夜23点训斥骨折重伤廖三宁，对骂球迷北京时间1月29日，在CBA广厦对阵北控的比赛当中，意外事件频发，北控球星廖三宁成为了最不幸的那个，他先是跟孙铭徽起了一点小摩擦，随后又被自己的广西老大哥许钟豪暴力肘击，直接导致眼广东打出一场丢人的比赛，不敌上海男篮揪出最大责任人108比101！在第二阶段最后一场比赛中，广东队以7分之差败给了上海队。虽然仅输7分，但过程相当的困难，在前三节广东队的分差保持在20分之内，最多落后23分，简直是被李春江的上海队北京冬奥会在即眉州东坡正式成为中国之家官方餐饮服务商官宣眉州东坡正式成为中国之家官方餐饮服务商中国国家队膳食服务商。眉州东坡做好饭，肩负重任，有力保障2022年1月29日，在各方的见证下，眉州东坡与国家体育总局体育器材装备中心在眉州C罗我们不能沉迷于科技儿子迷你罗12岁了我都没给他买手机1月29日消息，28日，曼联前锋C罗出席了迪拜世博会，并且领取了环足奖历史最佳射手，他还谈到了对于科技的一些看法，表示至今没有给12岁的儿子迷你罗买手机。谈到自己36岁依然保持着出

<<<<<<－>>>>>>

种族主义言论辞职诽谤法律行动巴黎圣日耳曼教练球迷和俱乐部正在面对巴黎圣日耳曼（PSG）教练关于种族主义的言论。粉丝们纷纷发声，如果评论属实，他就应该辞去董事职务。另一方面，主教练克里斯托弗加尔蒂埃（ChristopheGal美媒送绿军5笔布朗交易方案1换5赴火箭称王2换7联手约基奇争冠本赛季杰伦布朗在绿军的角色一如既往的不稳固，由于他的合同仅剩两年，布朗有可能在2024年选择离开，美媒theringer也在近日解析了这一点，布朗认为绿军管理层低估了他，他可能前往图解预测16强太阳湖人43胜，掘金东部三强40图解预测01NBA季后赛即将来袭，16支球队即将开始总冠军之旅。东部除了骑士（4）与尼克斯（5）势均力敌之外，雄鹿（1）应该会40或者41取胜东部第八，而凯尔特人（2）和费城76人信心满满！旧将只要签下凯恩贝林厄姆，曼联3年内定拿英超冠军202223赛季英超联赛已战至第29轮，曼联17胜5平7负积56分排在积分榜第4位，是彻底的争4集团成员。从积分的差距来看，曼联想要进入阿森纳与曼城的争冠集团还有很长的一段路要走。迎战欧联杯之王，曼联继续克制西甲？文羊城晚报全媒体记者刘毅欧联杯14决赛首回合将于4月14日上演焦点对决，英超豪门曼联主场迎战欧联杯之王塞维利亚，曼联首席射手拉什福德因伤缺席本场比赛。曼联本赛季在欧联杯淘汰赛阶段成邮报曼联收购案最终报价月底截止，格雷泽家族寻求全部出售直播吧4月13日讯据每日邮报报道，曼联收购案的最终报价本月底截止。每日邮报报道称，曼联收购案的第三轮竞价即将开始，所有投资者被告知有两个截止日期，一个是下周中截止的与尽职调查有关的GPT4还没有搞明白，大家都开始在转AutoGPT？自从去年12月开始关注ChatGPT并第一次上手体验之后，我就特别关注AI领域的一些新变化，为此还把朋友圈里一些做AI产品和技术的朋友挖了出来拉了个小群。过去这一周，我发现大家都在狄龙扬言首轮淘汰詹姆斯，曾怼詹姆斯走捷径北京时间4月12日，NBA附加赛，湖人主场历经加时以108102击败森林狼，最终以西部第七的排名晋级季后赛，季后赛首轮对手是西部第二孟菲斯灰熊队。年轻充满活力的灰熊队势必会给湖人队NBA附加赛第二场比赛回顾明尼苏达森林狼洛杉矶湖人4月12日，NBA附加赛第二场比赛开打，詹眉领衔的洛杉矶湖人坐镇主场迎来唐斯和爱德华兹率领的明尼苏达森林狼的挑战。最终湖人在最多落后15分的情况下，最终通过加时赛战胜森林狼完成大逆湖人对决灰熊取胜之道又有哪些？浓眉发挥至关重要，也须三军用命西部第七的洛杉矶湖人对手西部第二的孟菲斯灰熊，两支球队将会在季后赛首轮上演如何荡气回肠的故事，届时哪支球队会是最后胜者湖人灰熊系列赛无疑会是即将到来的季后赛首轮中诸多八组对决中最精优加数智新体验助京造品牌成长提速数智技术与营销场景融合，让品牌与用户建立深层互动，传递品牌价值并激发用户消费热情。作为京东推出的自有品牌，京东京造依托京东供应链优势，基于对消费需求与市场体验的深度洞察，为用户提供