保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

大模型GPT4预测长这样比GPT3略大纯文本更注重最优计算与

  不久前,谷歌发布基于他们最新一代人工智能架构Pathways研发的5400亿参数大模型PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。
  但同时,大家也一如既往地注意到PaLM的计算成本:用了6144块TPU。如果租显卡训练,最高花费可能达到1700万美元(人民币超过1个亿,一个小目标)。
  显然,这很烧钱,不符合经济可用的原则。难怪业内人士常常吐槽:苦大模型久矣。
  如果模型往大走,一个劲地砸钱,何时是个尽头?有学者也向AI科技评论表示:类似PaLM这样的大模型在结果上确实取得了不错的突破,但训练与计算的成本非常高,没必要将许多任务拼在一起。
  对于大模型的未来发展,GPT系列或许能提供一些新的见解。
  近日,CambrianAI的分析师AlbertoRomero便发表了一篇文章,基于OpenAI首席执行官SamAltman在数月前的说法,推测GPT4即将在今年7月到8月发布,并基于Altman在去年的一场问答,对GPT4的特征进行了预测。
  可以肯定的是,Altman称,GPT4的参数不会达到100T。
  AlbertoRomero也猜测,或许GPT4的规模会比GPT3略大,但大不会像GPT3一样成为GPT4的卖点。相反,OpenAI更致力于如何让规模较小的模型发挥更大的性能。预测1:GPT4不会太大
  首先,Alberto判断,GPT4不会是最大的语言模型。Altman也称它不会比GPT3大很多。与前几代的神经网络相比,GPT4肯定会很大,但大小不会是它的显著特征。GPT4可能介于GPT3和Gopher(175B280B)之间。
  接着,Alberto给出了他预测的理由:
  去年由英伟达和微软开发的MegatronTuringNLG有530B参数,一直是最大的密集神经网络其大小已是GPT3的3倍直到最近出现了谷歌的PaLM,其大小为540B。但值得注意的是,MTNLG之后的一些较小的模型达到了更高的性能水平。
  也就是说,更大更好。小型模型的存在有两个意义。
  其一是,企业已经意识到,要改善性能,扩大模型的规模不是唯一的方法,也不是最好的方法。2020年,OpenAI的JaredKaplan和同事得出结论,当增加的计算预算主要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind和其他开发语言模型的公司从表面上看接受了这一指导原则。
  论文地址:https:arxiv。orgpdf2001。08361。pdf
  MTNLG虽然规模很大,但在性能方面并不是最好的。事实上,它在任何单一类别基准上都不是最好的存在。像Gopher(280B)或Chinchilla(70B)这种更小的模型哪怕仅仅是其一小部分在任务上的表现都比MTNLG好得多。
  第二个意义是,公司开始拒绝越大越好的教条。虽然增加参数很简单,但是拥有更多参数只是众多可以提高性能的因素之一,而附带损害(如碳足迹、计算成本或进入死路)反而使其成为最糟糕的因素之一。如果企业能够从一个较小的模型中获得类似或更好的结果时,在构建一个庞大的模型之前就会三思而后行。
  Altman说,他们不再专注于制造非常大的模型,而是致力于让较小的模型发挥最大的作用。OpenAI的研究人员是缩放假设(scalinghypothesis)早期的倡导人,但现在他们可能已经意识到其他还没走过的路可以改进模型。
  相比将GPT4做大,Alberto更倾向于认为,OpenAI会将把重点转移到其他方面比如数据、算法、参数化或对齐这些因素可以更显著地改进模型。预测2:GPT4试图寻找最优
  当涉及到优化时,语言模型会遇到一个关键的问题。训练如此昂贵,以至于企业不得不在准确性和成本之间做出权衡。而这种抉择常常会导致模型明显未优化。
  GPT3只被训练了一次,仍有一些错误,这些错误在某些情况下可能会导致重新训练。由于成本太高、负担不起,OpenAI决定不进行优化,而这使得研究人员无法找到模型的最佳超参数集(例如学习速率、批尺寸、序列长度等)。
  训练成本很高导致的另一个后果是模型行为的分析受到限制。当Kaplan的团队总结出模型大小是提高性能最相关的变量时,他们没有考虑到训练令牌的数量也就是输入模型的数据量。这样做将需要大量的计算资源。
  科技公司遵循Kaplan的结论,因为这已是他们所知最好的想法。讽刺的是,正是受到经济限制的影响,谷歌、微软、Facebook和其他公司在越来越大的模型上浪费了数百万美元,并且在这个过程中产生了大量的污染。
  现在,以DeepMind和OpenAI为首的公司正在探索其他方法。他们试图找到最优模型,而不仅仅是更大的模型。
  最佳参数化
  上个月,微软和OpenAI证明,如果使用最优超参数训练模型,GPT3可以得到进一步的改进。他们发现,6。7B版GPT3的性能提高了很多,可以与最初的13B版GPT3媲美。超参数调优(对于较大的模型来说不可行)赋予的性能提升相当于参数数量增加了一倍。
  他们发现了一种新的参数化(P),在这种参数化中,小型模型的最佳超参数也同样适用于同类大型模型。P使他们能够优化任意大小的模型,而且只需花费很小一部分的培训成本。然后这些超参数可以几乎不花钱地转移到更大的模型中。
  最优计算模型
  几周前,DeepMind重新审视了Kaplan的发现,并意识到训练令牌的数量与模型大小一样影响性能,而这与人们的看法相反。他们的结论是,随着更多的计算预算可用,应该将其平均分配给可缩放参数和数据。他们通过训练Chinchilla来证明自己的假设,Chinchilla是一个70B模型(是曾经的SOTA,比Gopher小4倍),它使用的数据是GPT3(1。4T令牌来自典型的300B)以来所有大型语言模型的4倍。
  结果是明确的。在许多语言基准测试中,Chinchilla一致且显著地优于Gopher、GPT3、MTNLG和所有其他语言模型,而目前的模型有过大的问题,且训练不足。
  考虑到GPT4将略大于GPT3,根据DeepMind的发现,GPT4需要达到计算优化的训练令牌数量将约为5万亿,比当前的数据集高出一个数量级。他们需要训练模型以达到最小训练损失的失败次数,将比他们使用GPT3(使用Gopher的计算预算作为代替)时多1020倍。
  Altman在问答中说GPT4将比GPT3使用更多的计算时,可能就是在指这一点。
  OpenAI肯定会对GPT4进行优化相关的调查尽管具体到什么程度还无法预测,因为他们的预算是未知的。可以肯定的是,OpenAI将专注于优化除模型大小之外的其他变量。找到超参数的最佳集合,最优计算模型大小和参数的数量可以在所有基准测试中带来难以置信的改进。如果将这些方法合并到一个模型中,那这个模型将会达到一个所有预测都难以想象的高度。
  Altman还说,如果不把模型做大,人们就不会相信模型能有多好。他可能是指扩大模型尺寸的工作目前已经结束。预测3:GPT4将是一个纯文本模型
  深度学习的未来是多模态模型。人类的大脑有多种感觉,这是因为我们生活在一个多模态的世界。每次只以一种模式感知世界,极大地限制了人工智能处理或理解世界的能力。
  然而,良好的多模态模型比良好的仅用语言或仅用视觉的模型要难得多。将视觉信息和文本信息组合成单一的表示形式是一项艰巨的任务。我们对大脑是如何做到这一点的了解非常有限(并不是说深度学习社区考虑了认知科学对大脑结构和功能的见解),所以我们不知道如何在神经网络中实施。
  Altman在问答中说GPT4不会是多模态的(像DALLE或LaMDA那样),而是一个纯文本模型。因此,Alberto的猜测是,在跳到下一代多模态人工智能之前,他们试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限。预测4:GPT4将是一个密集模型
  稀疏模型利用条件计算,使用模型的不同部分处理不同类型的输入。稀疏模型最近取得了巨大的成功,其可以很容易地扩展到超过1T参数标记,而不会产生高额的计算成本,能够在模型大小和计算预算之间创建一个看似正交的关系。然而,MoE方法的好处在非常大的模型上就没那么多了。
  考虑到OpenAI关注密集语言模型的历史,Alberto认为,GPT4大概率也将是一个密集模型。又因为Altman说GPT4不会比GPT3大很多,我们可以得出结论,稀疏性不是OpenAI的选择至少目前是这样。
  鉴于人工智能的灵感来源,即人类大脑,严重依赖于稀疏处理。与多模态一样,稀疏性很可能会主导未来几代的神经网络。预测5:GPT4会比GPT3更对齐
  OpenAI在解决AI对齐问题上投入了大量的精力:如何让语言模型遵循我们的意图并坚持我们的价值观不管这到底意味着什么。这不仅是一个数学难题(例如,我们如何让人工智能准确理解我们想要的东西?),而且也是一个哲学难题(比如没有一种通用的方法可以让人工智能与人类保持一致,因为人类价值观在不同群体之间的差异是巨大的,而且常常互相冲突)。
  他们使用InstructGPT进行了第一次尝试,这是一种通过人类的反馈来学习遵守指令的新GPT3(不管这些指令是出于好意还是恶意,都没有被纳入模型中)。
  InstructGPT的主要突破在于,不管其在语言基准上的结果如何,其都被人类评审认为是一个更好的模型(这些评审是一个由OpenAI员工和英语人士构成的同质的群体,所以我们应该对得出的结论保持谨慎的态度)。这显著表明,我们有必要克服把基准作为评估人工智能能力的唯一指标。人类如何感知这些模型可能同样重要,如果不是更重要的话。
  考虑到Altman和OpenAI要遵守作为一个有益AGI的承诺,我相信GPT4将实现并构建他们从InstructGPT中获得的发现。
  我认为他们将改进对齐模式的方式,因为目前为这个模型制作标签的仅限于OpenAI员工和英语人士。而真正的对齐应该包括各种性别、种族、国籍等方面群体。这是一个巨大的挑战,朝着这个目标迈进的任何一步都将受到大众的欢迎。6总结
  模型大小:GPT4将比GPT3大,但与目前最大的模型(MTNLG530B和PaLM540B)相比不是很大。模型规模不会是一个显著的特征。
  最优性:GPT4将比GPT3使用更多的计算。GPT4将实现对参数化(最优超参数)和比例法则(训练令牌的数量与模型大小同样重要)的新优化见解。
  多模态:GPT4将是一个纯文本模型,而不是多模态模型。OpenAI希望在完全跳到像DALLE这样的多模态模型之前先充分利用好语言模型。
  稀疏性:按照GPT2和GPT3的趋势,GPT4将是一个密集模型(所有参数将用于处理任何给定的输入)。在未来,稀缺性将变得更加重要。
  对齐:GPT4将比GPT3更对齐,其将从InstructGPT进行学习,而InstructGPT是根据人类的反馈进行训练的。不过,人工智能的对齐还有很长的路要走,我们应该仔细评估所做出的工作,而不应该对此进行炒作。
  你怎么看?
  参考链接:
  https:towardsdatascience。comgpt4iscomingsoonhereswhatweknowaboutit64db058cfd45
  https:towardsdatascience。comhowmicrosoftopenaiaresqueezingthebestoutofgpt3ad0990a66cbe
  https:www。metaculus。comquestions7401whenwillgpt4beannounced

小米电视2020年终总结探索与突破销量稳居中国第一全球前五IT之家1月13日消息小米电视官方今日总结了其2020年所发生的大事记,将其在2020年所经历的事情总结为七个节点,从3月24发布Redmi智能电视MAX98英寸版本到11月2……特斯拉股价创新高市值接近5000亿美元,击退质疑据报道,周一特斯拉股价上涨6,市值接近5000亿美元。一周以前,报道称这家电动汽车制造商将在今年12月首次进入标普500指数,此举将迫使一些指数基金将购入特斯拉价值数十亿美元的……苏教版二年级语文上册乡下孩子第一段教学案例及反思曾是妈妈怀里欢唱的黄鹂,曾是爸爸背上盛开的野菊。师:谁能把这段话读正确?指名读,相机正音:曾是、盛开(后鼻音)。师:要把这段话读正确,不光要……应接不暇造句怎么造应接不暇造句1、经过一家玩具店,只见里面摆满了琳琅满目的玩具,各俱特色,有大的、小的、方的、圆的数不胜数,让人眼花缭乱,应接不暇。2、站在峰顶的巨石上,极目眺望,美……特斯拉已连续5个季度盈利,今年有望成首个盈利年度10月26日消息,据国外媒体报道,在Model3产量及交付量不断提升、上海超级工厂产能提升的推动下,电动汽车厂商特斯拉的财务状况也大有改观,已连续5个季度盈利,今年有望成为特斯……大班体育平衡加工厂活动目标:1、能运用多种材料搭建多样化的平衡路径,敢于在有难度的平衡路径上练习大胆行走。2、尝试多人合作,体验搭建的乐趣,感受成功的喜悦。活动重难点:重……商於子驾豕阅读练习及答案商於子驾豕商於子家贫,无犊以耕,乃牵一大豕驾之而东。大豕不肯就轭,既就复解:终日不能破一畦。宁毋先生过而尤之日:子过矣!耕当以牛,以其力之巨能起块也,蹄之坚能陷淖也。豕纵……北京小客车指标办新能源小客车指标年度配额已用尽【TechWeb】8月25日,今日上午,北京小客车指标办公布了本期小客车指标申请审核结果和配置数据。通告表示,个人和单位新能源小客车指标年度配额已用尽,审核通过的有效申请编码按……马斯克特斯拉几乎所有部件生产都是75自动化IT之家10月13日消息今日,特斯拉CEO马斯克在社交媒体发文表示,特斯拉生产过程中,几乎所有的部件生产都是75自动化。只有线束和总装主要是手工操作的,而这低于10的生产成本。……恒大汽车发布公告拟在科创板上市9月26日消息,昨日晚间,恒大汽车发布公告,董事会已于2020年9月25日审议通过建议根据特别授权发行人民币股份及相关事宜的决议案。公告显示,根据建议发行人民币股份的方案……特斯拉全自动驾驶来了,马斯克我就是个异类埃隆马斯克(ElonMusk)在当地时间周三晚上发布推特表示,特斯拉的全自动驾驶(FullSelfDriving,以下简称FSD)beta版软件已向小部分客户推送。尽管目……特斯拉加州弗里蒙特工厂年产能提升至59万辆,环比提升20。410月22日消息,据国外媒体报道,在当地时间周三发布的第三季度财报中,特斯拉披露,其加州弗里蒙特工厂的年产能已从49万辆提升至59万辆,环比提升20。4,主要是由于Model3……
巨人网络公司将元宇宙游戏确定为长期布局的方向之一IT之家12月29日消息,今日,巨人网络在投资者互动平台表示,元宇宙被普遍认为是下一代互联网的形态。公司十分重视元宇宙趋势及其带给游戏产业的机遇。经过前期调研和论证,公司将元宇……单位保洁承包合同范本保洁工作是物业管理的一项基本内容,也是物业管理公司管理水平的一个直观反映。那么对于单位保洁承包合同你了解多少呢?以下是品学网小编整理的单位保洁承包合同,欢迎参考阅读。单位保洁承……电子商务专业大学生酒店实习报告专业:华南师范大学南海学院XX年级电子商务专业实习单位:徐闻县海鲜大酒店实习时间:2009年7月13日到2009年8月23日实习目的:通过实地实习,了解酒店经……特教老师心得体会范文这个暑假到特教学校担任老师实习,深深感受到自己的这次的特教实践的责任重大,让那些特殊孩子过上有尊严的生活,使他们的心灵纯净。下面是品学网小编为大家收集整理的特教老师心得体会范文……中餐摆台注意事项中餐宴会摆台须根据宴会的性质、形式、主办单位的具体要求、参加宴会的人数、面积等来制定方案。下面由品学网小编给大家带来的中餐摆台注意事项,希望各位客官喜欢!什么是摆台中餐宴……集邦咨询工业元宇宙将催动全球智能制造市场规模在2025年达5IT之家11月29日消息,研究机构集邦咨询在今日发布最新的市场报告称,工业元宇宙将催动全球智能制造市场规模在2025年一举突破5400亿美元,2021至2025年复合成长率达1……人音版五年级上册教学工作计划一、学生情况分析:五年级的学生的接受能力增强不少,对音乐也充满了浓厚的兴趣,学生在演唱时基本上能不喊唱,会用正确的方法演唱而且认识到了气息的作用,演唱时也能满怀感情地歌唱……Facebook母公司Meta第四季度营收337亿美元,净利北京时间2月3日凌晨消息,Meta(原Facebook)今天发布了截至12月31日的2021财年第四季度及全年未经审计财报。报告显示,Meta第四季度营收为336。71亿美元,……音频社交平台ClubhouseCEO疫情后用户也离不开我们,北京时间12月9日早间消息,仅仅用了一年时间里,美国音频社交平台Clubhouse脱颖而出人气暴涨,迫使老牌互联网公司Meta、推特、Spotify等推出类似产品,甚至在这一领……音频社交平台Clubhouse聘请首位法律顾问,曾在Pint北京时间10月26日晚间消息,据报道,音频聊天应用Clubhouse已聘请安东尼法尔宗(AnthonyFalzone)为公司的首任法律总顾问。法尔宗曾为图片社交网络Pin……消防安全管理责任书范文消防安全重中之重,消防常识进万家,平安相伴你我他。防范火灾人人有责。下面是小编给大家带来的消防安全管理责任书范文,欢迎大家阅读参考,我们一起来看看吧!消防安全管理责任书范……年度员工工作业绩评语一年即将过去,对于一些优秀员工的工作业绩怎么写评语呢?下面是有年度员工工作业绩评语,欢迎参阅。年度员工工作业绩评语1、不管是做服务员还是当领班,只要分给她工作,她会完成得……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网