童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

7。7亿参数,超越5400亿PaLM!UW谷歌提出分步蒸馏,

4月4日 囍孤女投稿
  【新智元导读】LLM不实用,小模型蒸馏才是现实的大模型应用路线,全面领先微调技术!土豪请无视。。。
  大型语言模型虽然性能优异,可以用零样本或少样本提示解决新任务,但LLM在实际应用部署时却很不实用,内存利用效率低,并且需要大量计算资源。
  比如运行一个1750亿参数的语言模型服务至少需要350GB的显存,而目前最先进的语言模型大多已超过5000亿参数量,很多研究团队都没有足够的资源来运行,在现实应用中也无法满足低延迟性能。
  也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型,不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。
  为了解决大模型的资源需求问题,华盛顿大学联合谷歌提出了一种新的蒸馏机制分步蒸馏(DistillingStepbyStep),蒸馏后的模型尺寸相比原模型来说非常小,但性能却更好,并且微调和蒸馏过程中所需的训练数据也更少。
  论文链接:https:arxiv。orgabs2305。02301
  分布蒸馏机制把LLM中抽取出的预测理由(rationale)作为在多任务框架内训练小模型的额外监督信息。
  在4个NLP基准上进行实验后,可以发现:
  1。与微调和蒸馏相比,该机制用更少的训练样本实现了更好的性能;
  2。相比少样本提示LLM,该机制使用更小尺寸的模型实现了更好的性能;
  3。同时降低模型尺寸和数据量也可以实现优于LLM的性能。
  实验中,微调后770M的T5模型在基准测试中仅使用80的可用数据就优于少样本提示的540B的PaLM模型,而标准微调相同的T5模型即使使用100的数据集也难以匹配。
  蒸馏方法
  分布蒸馏(distillingstepbystep)的关键思想是抽取出信息丰富且用自然语言描述的预测理由,即中间推理步骤,可以解释输入问题与模型输出之间的联系,然后再反过来用该数据以更高效的方式训练小模型。
  分布蒸馏主要由两个阶段组成:
  1。从LLM中抽取原理(rationale)
  研究人员利用少样本思维链(CoT)提示从LLM中提取预测中间步骤。
  给定目标任务后,先在LLM输入提示中准备几个样例,其中每个样例由一个三元组组成,包含(输入,原理,输出)。
  输入提示后,LLM能够模仿三元组演示以生成其他新问题的预测原理,例如,在常识问答案任务中,给定输入问题:
  Sammy想要去人群所在的地方。他会去哪里?答案选项:(a)人口稠密地区,(B)赛道,(c)沙漠,(d)公寓,(e)路障
  (Sammywantedtogotowherethepeopleare。Wheremighthego?AnswerChoices:(a)populatedareas,(b)racetrack,(c)desert,(d)apartment,(e)roadblock)
  通过逐步提炼后,LLM可以给出问题的正确答案(a)人口稠密地区,并且提供回答问题的理由答案必须是一个有很多人的地方,在上述选择中,只有人口稠密的地区有很多人。
  通过在提示中提供与基本原理配对的CoT示例,上下文学习能力可以让LLM为没见过的问题类型生成相应的回答理由。
  2。训练小模型
  通过将训练过程构建为多任务问题,将预测理由抽取出来,并将其纳入训练小模型中。
  除了标准标签预测任务之外,研究人员还使用新的理由生成任务来训练小模型,使得模型能够学习生成用于预测的中间推理步骤,并且引导模型更好地预测结果标签。
  通过在输入提示中加入任务前缀label和rationale来区分标签预测和理由生成任务。
  实验结果
  在实验中,研究人员选择5400亿参数量的PaLM模型作为LLM基线,使用T5模型作为任务相关的下游小模型。
  然后在三个不同的NLP任务中对四个基准数据集进行了实验:用于自然语言推理的eSNLI和ANLI、常识问答的CQA,以及用于算术数学应用题的SVAMP。
  更少的训练数据
  与标准微调相比,分步蒸馏方法使用更少的训练数据即实现了更好的性能。
  在eSNLI数据集上,当使用完整数据集的12。5时就实现了比标准微调更好的性能,在ANLI、CQA和SVAMP上分别只需要75、25和20的训练数据。
  与使用220MT5模型对不同大小的人工标记数据集进行标准微调相比,在所有数据集上,分布蒸馏使用更少的训练示例优于在完整数据集上训练的标准微调。
  更小的部署模型尺寸
  与少样本CoT提示的LLM相比,分布蒸馏得到的模型尺寸要小得多,但性能却更好。
  在eSNLI数据集上,使用220M的T5模型实现了比540B的PaLM更好的性能;在ANLI上,使用770M的T5模型实现了比540B的PaLM更好的性能,模型尺寸仅为1700
  更小的模型、更少的数据
  在模型尺寸和训练数据同时降低的情况下,也实现了超越少样本PaLM的性能。
  在ANLI上,使用770MT5模型超越了540BPaLM的性能,只使用了完整数据集的80
  并且可以观察到,即使使用100的完整数据集,标准微调也无法赶上PaLM的性能,表明分步蒸馏可以同时减少模型尺寸和训练数据量实现超越LLM的性能。
  (举报)
投诉 评论

RedmiNote13R系列曝光:入门级别的5G手机上个月,Redmi举办了一场新品发布会,推出了RedmiNote13系列,包括RedmiNote13、RedmiNote13Pro和RedmiNote13Pro三个版本。其中,……华为Nova11SE入网麒麟5G中端机还要等近日,有多名博主称华为nova11SE和华为畅享70系列已经获得入网许可。据推测,这两款手机都将搭载全系骁龙680处理器。根据博主“厂长是关同学”的透露,华为nova11SE依……高通5GSoc之王!骁龙8Gen3来了:跑分突破200万再创快科技10月7日消息,博主数码闲聊站透露,高通骁龙8Gen3终端安兔兔跑分能跑到200万分以上,是高通史上最强悍的5GSoc。其中CPU部分跑分在44万以上,对比骁龙8Gen2……100元住进群租房杂物间,爆火的“假期住我家”有多坑?与假期动辄三倍涨价的酒店、民宿相比,今年“十一”长假,“假期住我家”在各大社交平台上火了。网友将自己的房子通过整租租次卧方式,给假期出游的年轻人居住。一间次卧出租价格一般为10……开源大模型正在“杀死”闭源?“OpenAI不足为惧,开源会慢慢赶上来。”彼时HuggingFace创始人ClemDelangue的一句预言,正在迅速成为现实。ChatGPT横空出世7个多月后,……2023社交进入大变革时代2023社交还有新故事,微信巨头位置坐得还稳吗?不久前,Meta推出社交平台Threads、微信种草社区“小绿书”开启内测,字节跳动推出了海外生活方式社区Lemon8。……分解大模型的神经元!Claude团队最新研究火了,网友:打开神经网络的不可解释性,一直是AI领域的“老大难”问题。但现在,我们似乎取得了一丝进展ChatGPT最强竞对Claude背后的公司Anthropic,利用字典学习成功……吃瓜群如何一个月赚5万?不知道大家手里有没有吃瓜群,就是每天在群里看各种娱乐、八卦、民生等内容。这种群在微信、QQ数以万计的出现,你以为别人是闲聊,这种群没有价值。但实际上,许多人靠运营这……公园“躲猫猫”和Citydrink爆红:社交游戏的魔力打开社交媒体平台就不难发现,当代年轻人假期有了新去处。你可以和数十个甚至上百个人相聚公园,通过手机统一共享定位,分为“猫”、“鼠”两队,展开一场现代版“躲猫猫”游戏;也可……免费使用,媲美Midjourney!微软在BingChat等微软在官网宣布,将OpenAI最新模型DALLE3集成在BingChat和BingImageCreate中,并免费提供给用户使用。据悉,DALLE3是一款类Midjour……好久没网购,收藏夹去哪了?作为平台最常用的功能之一,收藏夹这个功能最近几年存在感越来越低了,很多APP都不好找。具体原因是什么?我们看看作者分析的内容。有段日子不怎么在网上购物,最近得了空闲,翻开……7。7亿参数,超越5400亿PaLM!UW谷歌提出分步蒸馏,【新智元导读】LLM不实用,小模型蒸馏才是现实的大模型应用路线,全面领先微调技术!土豪请无视。。。大型语言模型虽然性能优异,可以用零样本或少样本提示解决新任务,但LLM在……
新零售神仙打架,创业企业如何以社交化武器单点突围?买与卖本质是关于人的生意,在人与人的情感往来中,新零售有了自我进化的能力。2016年以来,互联网巨头已经开始加速对线下的渗透。然后我们看到了2017年的新零售元年,这一年……着眼行业为用户设计:电子元器件行业设计小结本文从电子元器件行业切入,介绍了行业下用户的诉求及我们的设计思考,希望对其他B类行业的设计提供一点借鉴作用。过去半年多时间,随着对电子元件器行业和用户的深入了解,对于如何……“互联网客货运输”:新常态下的网络平台化趋势文章分享了作者对“互联网客货运输”的一些看法和理解,希望能够给你带来些参考和启发。随着移动互联网的不断发展,公路货运行业的商业模式受到了不小冲击。以网络平台、车辆动态监督……供应链内幕:为何异形全面屏成为当下最佳方案不管你愿意还是不愿意,2018年必然是异形屏幕的天下,但各家的异形屏幕体验因为各家对产品理解的不同,又会形成体验的高下之分。去年掀起的全面屏风潮掀起了手机设计的革命,各种……10亿微信,从输入输出到社会化操作系统今天借着10亿的里程碑数据,只谈一点个人思考:微信从输入输出系统,向社会化操作系统的转型。马化腾亲口宣布,微信的月活数已经超过10亿。其实业内对微信的新高已习以为常……后直播时代,斗鱼,虎牙们如何安身立命?随着人口红利的消失、资本热潮的褪去,直播行业进入了后直播时代,那斗鱼、虎牙、映客在内的直播平台将会何去何从?从2017年开始直播经历了从极盛到衰败,从风口跌落,此后风口迅……零售变革大势所趋,电商新零售在哪里?零售的变革是大势所趋,新零售也或将是未来的趋势,而谈新零售需要知道什么是新零售;巨头如何践行新零售?创业者如何“解码”新零售等问题。2017年,“新零售”还是个高频词,近……用Axure写PRD:虎扑app产品需求文档文章为作者利用Axure撰写的PRD,希望能够给你带来一些帮助。需求文档是产品经理的基本功,产品小白入门的必经之路,但对于小白来说,没经历过一个完整的项目,自然也没有产品……lol刘佳怡代打事件始末,阿怡大小姐微博澄清否认代打阿怡大小姐是斗鱼一姐,直播特点是和观众互动特别多,解说语言诙谐搞笑,为此吸引了大批粉丝。日前却传出刘佳怡代打的风波,随后刘佳怡0101微博中也澄清否认找人代打。lol刘佳……从在线音乐战争三部曲看行业未来走向在不断爆发的战争中市场格局自然而然会产生变化,而变化的过程中就是市场逐渐被完善的过程。近期,在线音乐市场动静不断。春节刚刚过完,QQ音乐就在北京三里屯打造了一场以“音乐连……PM玩心理:内控与外控认知心理学、社会心理学,可以说是产品设计中最常用到的心理学知识。本系列文章,试图结合心理学理论与产品案例,为产品经理在产品设计中提供心理学上的依据。一、控制点控制点……新零售风口下的无人店调研本文将以永辉生活超市体验店、苏宁易购biu、欧尚一分钟为调研对象,从而体验购物流程、不同无人店的优势与劣势,以及提出对无人店未来发展的展望。enjoy一、背景传统零……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界