7。7亿参数,超越5400亿PaLM!UW谷歌提出分步蒸馏,
4月4日 囍孤女投稿 【新智元导读】LLM不实用,小模型蒸馏才是现实的大模型应用路线,全面领先微调技术!土豪请无视。。。
大型语言模型虽然性能优异,可以用零样本或少样本提示解决新任务,但LLM在实际应用部署时却很不实用,内存利用效率低,并且需要大量计算资源。
比如运行一个1750亿参数的语言模型服务至少需要350GB的显存,而目前最先进的语言模型大多已超过5000亿参数量,很多研究团队都没有足够的资源来运行,在现实应用中也无法满足低延迟性能。
也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型,不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。
为了解决大模型的资源需求问题,华盛顿大学联合谷歌提出了一种新的蒸馏机制分步蒸馏(DistillingStepbyStep),蒸馏后的模型尺寸相比原模型来说非常小,但性能却更好,并且微调和蒸馏过程中所需的训练数据也更少。
论文链接:https:arxiv。orgabs2305。02301
分布蒸馏机制把LLM中抽取出的预测理由(rationale)作为在多任务框架内训练小模型的额外监督信息。
在4个NLP基准上进行实验后,可以发现:
1。与微调和蒸馏相比,该机制用更少的训练样本实现了更好的性能;
2。相比少样本提示LLM,该机制使用更小尺寸的模型实现了更好的性能;
3。同时降低模型尺寸和数据量也可以实现优于LLM的性能。
实验中,微调后770M的T5模型在基准测试中仅使用80的可用数据就优于少样本提示的540B的PaLM模型,而标准微调相同的T5模型即使使用100的数据集也难以匹配。
蒸馏方法
分布蒸馏(distillingstepbystep)的关键思想是抽取出信息丰富且用自然语言描述的预测理由,即中间推理步骤,可以解释输入问题与模型输出之间的联系,然后再反过来用该数据以更高效的方式训练小模型。
分布蒸馏主要由两个阶段组成:
1。从LLM中抽取原理(rationale)
研究人员利用少样本思维链(CoT)提示从LLM中提取预测中间步骤。
给定目标任务后,先在LLM输入提示中准备几个样例,其中每个样例由一个三元组组成,包含(输入,原理,输出)。
输入提示后,LLM能够模仿三元组演示以生成其他新问题的预测原理,例如,在常识问答案任务中,给定输入问题:
Sammy想要去人群所在的地方。他会去哪里?答案选项:(a)人口稠密地区,(B)赛道,(c)沙漠,(d)公寓,(e)路障
(Sammywantedtogotowherethepeopleare。Wheremighthego?AnswerChoices:(a)populatedareas,(b)racetrack,(c)desert,(d)apartment,(e)roadblock)
通过逐步提炼后,LLM可以给出问题的正确答案(a)人口稠密地区,并且提供回答问题的理由答案必须是一个有很多人的地方,在上述选择中,只有人口稠密的地区有很多人。
通过在提示中提供与基本原理配对的CoT示例,上下文学习能力可以让LLM为没见过的问题类型生成相应的回答理由。
2。训练小模型
通过将训练过程构建为多任务问题,将预测理由抽取出来,并将其纳入训练小模型中。
除了标准标签预测任务之外,研究人员还使用新的理由生成任务来训练小模型,使得模型能够学习生成用于预测的中间推理步骤,并且引导模型更好地预测结果标签。
通过在输入提示中加入任务前缀label和rationale来区分标签预测和理由生成任务。
实验结果
在实验中,研究人员选择5400亿参数量的PaLM模型作为LLM基线,使用T5模型作为任务相关的下游小模型。
然后在三个不同的NLP任务中对四个基准数据集进行了实验:用于自然语言推理的eSNLI和ANLI、常识问答的CQA,以及用于算术数学应用题的SVAMP。
更少的训练数据
与标准微调相比,分步蒸馏方法使用更少的训练数据即实现了更好的性能。
在eSNLI数据集上,当使用完整数据集的12。5时就实现了比标准微调更好的性能,在ANLI、CQA和SVAMP上分别只需要75、25和20的训练数据。
与使用220MT5模型对不同大小的人工标记数据集进行标准微调相比,在所有数据集上,分布蒸馏使用更少的训练示例优于在完整数据集上训练的标准微调。
更小的部署模型尺寸
与少样本CoT提示的LLM相比,分布蒸馏得到的模型尺寸要小得多,但性能却更好。
在eSNLI数据集上,使用220M的T5模型实现了比540B的PaLM更好的性能;在ANLI上,使用770M的T5模型实现了比540B的PaLM更好的性能,模型尺寸仅为1700
更小的模型、更少的数据
在模型尺寸和训练数据同时降低的情况下,也实现了超越少样本PaLM的性能。
在ANLI上,使用770MT5模型超越了540BPaLM的性能,只使用了完整数据集的80
并且可以观察到,即使使用100的完整数据集,标准微调也无法赶上PaLM的性能,表明分步蒸馏可以同时减少模型尺寸和训练数据量实现超越LLM的性能。
(举报)
投诉 评论
新零售神仙打架,创业企业如何以社交化武器单点突围?买与卖本质是关于人的生意,在人与人的情感往来中,新零售有了自我进化的能力。2016年以来,互联网巨头已经开始加速对线下的渗透。然后我们看到了2017年的新零售元年,这一年……
着眼行业为用户设计:电子元器件行业设计小结本文从电子元器件行业切入,介绍了行业下用户的诉求及我们的设计思考,希望对其他B类行业的设计提供一点借鉴作用。过去半年多时间,随着对电子元件器行业和用户的深入了解,对于如何……
“互联网客货运输”:新常态下的网络平台化趋势文章分享了作者对“互联网客货运输”的一些看法和理解,希望能够给你带来些参考和启发。随着移动互联网的不断发展,公路货运行业的商业模式受到了不小冲击。以网络平台、车辆动态监督……
供应链内幕:为何异形全面屏成为当下最佳方案不管你愿意还是不愿意,2018年必然是异形屏幕的天下,但各家的异形屏幕体验因为各家对产品理解的不同,又会形成体验的高下之分。去年掀起的全面屏风潮掀起了手机设计的革命,各种……
10亿微信,从输入输出到社会化操作系统今天借着10亿的里程碑数据,只谈一点个人思考:微信从输入输出系统,向社会化操作系统的转型。马化腾亲口宣布,微信的月活数已经超过10亿。其实业内对微信的新高已习以为常……
后直播时代,斗鱼,虎牙们如何安身立命?随着人口红利的消失、资本热潮的褪去,直播行业进入了后直播时代,那斗鱼、虎牙、映客在内的直播平台将会何去何从?从2017年开始直播经历了从极盛到衰败,从风口跌落,此后风口迅……
零售变革大势所趋,电商新零售在哪里?零售的变革是大势所趋,新零售也或将是未来的趋势,而谈新零售需要知道什么是新零售;巨头如何践行新零售?创业者如何“解码”新零售等问题。2017年,“新零售”还是个高频词,近……
用Axure写PRD:虎扑app产品需求文档文章为作者利用Axure撰写的PRD,希望能够给你带来一些帮助。需求文档是产品经理的基本功,产品小白入门的必经之路,但对于小白来说,没经历过一个完整的项目,自然也没有产品……
lol刘佳怡代打事件始末,阿怡大小姐微博澄清否认代打阿怡大小姐是斗鱼一姐,直播特点是和观众互动特别多,解说语言诙谐搞笑,为此吸引了大批粉丝。日前却传出刘佳怡代打的风波,随后刘佳怡0101微博中也澄清否认找人代打。lol刘佳……
从在线音乐战争三部曲看行业未来走向在不断爆发的战争中市场格局自然而然会产生变化,而变化的过程中就是市场逐渐被完善的过程。近期,在线音乐市场动静不断。春节刚刚过完,QQ音乐就在北京三里屯打造了一场以“音乐连……
PM玩心理:内控与外控认知心理学、社会心理学,可以说是产品设计中最常用到的心理学知识。本系列文章,试图结合心理学理论与产品案例,为产品经理在产品设计中提供心理学上的依据。一、控制点控制点……
新零售风口下的无人店调研本文将以永辉生活超市体验店、苏宁易购biu、欧尚一分钟为调研对象,从而体验购物流程、不同无人店的优势与劣势,以及提出对无人店未来发展的展望。enjoy一、背景传统零……