范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大模型GPT4预测长这样比GPT3略大纯文本更注重最优计算与对齐

  不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 ——PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。
  但同时,大家也一如既往地注意到 PaLM 的计算成本:用了 6144 块 TPU。如果租显卡训练,最高花费可能达到 1700 万美元(人民币超过 1 个亿,"一个小目标")。
  显然,这很烧钱,不符合"经济可用"的原则。难怪业内人士常常吐槽:苦大模型久矣。
  如果模型往大走,一个劲地砸钱,何时是个尽头?有学者也向 AI 科技评论表示:类似 PaLM 这样的大模型在结果上确实取得了不错的突破,但训练与计算的成本非常高,没必要将许多任务拼在一起。
  对于大模型的未来发展,GPT 系列或许能提供一些新的见解。
  近日,Cambrian AI 的分析师 Alberto Romero 便发表了一篇文章,基于 OpenAI 首席执行官 Sam Altman 在数月前的说法,推测 GPT-4 即将在今年 7 月到 8 月发布,并基于 Altman 在去年的一场问答,对 GPT-4 的特征进行了预测。
  可以肯定的是,Altman 称,GPT-4 的参数不会达到 100T。
  Alberto Romero 也猜测,或许 GPT-4 的规模会比 GPT-3 略大,但"大"不会像 GPT-3 一样成为 GPT-4 的"卖点"。相反,OpenAI 更致力于如何让规模较小的模型发挥更大的性能。预测 1:GPT-4 不会太大
  首先,Alberto 判断,GPT-4 不会是最大的语言模型。Altman 也称它不会比 GPT-3 大很多。与前几代的神经网络相比,GPT-4 肯定会很大,但大小不会是它的显著特征。GPT-4 可能介于 GPT-3 和 Gopher (175B-280B) 之间。
  接着,Alberto 给出了他预测的理由:
  去年由英伟达和微软开发的 Megatron-Turing NLG 有 530B 参数,一直是最大的密集神经网络 —— 其大小已是 GPT-3 的 3 倍 —— 直到最近出现了谷歌的 PaLM,其大小为 540B。但值得注意的是,MT-NLG 之后的一些较小的模型达到了更高的性能水平。
  也就是说,更大 ≠ 更好。小型模型的存在有两个意义。
  其一是,企业已经意识到,要改善性能,扩大模型的规模不是唯一的方法,也不是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事得出结论,当增加的计算预算主要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind 和其他开发语言模型的公司从表面上看接受了这一指导原则。
  论文地址:https://arxiv.org/  pdf / 2001.08361.pdf
  MT-NLG 虽然规模很大,但在性能方面并不是最好的。事实上,它在任何单一类别基准上都不是最好的存在。像 Gopher (280B) 或 Chinchilla (70B) 这种更小的模型 —— 哪怕仅仅是其一小部分 —— 在任务上的表现都比 MT-NLG 好得多。
  第二个意义是,公司开始拒绝"越大越好"的教条。虽然增加参数很简单,但是拥有更多参数只是众多可以提高性能的因素之一,而附带损害(如碳足迹、计算成本或进入死路)反而使其成为最糟糕的因素之一。如果企业能够从一个较小的模型中获得类似或更好的结果时,在构建一个庞大的模型之前就会三思而后行。
  Altman 说,他们不再专注于制造非常大的模型,而是致力于让较小的模型发挥最大的作用。OpenAI 的研究人员是缩放假设(scaling hypothesis)早期的倡导人,但现在他们可能已经意识到其他还没走过的路可以改进模型。
  相比将 GPT-4 做大,Alberto 更倾向于认为,OpenAI 会将把重点转移到其他方面 —— 比如数据、算法、参数化或对齐 —— 这些因素可以更显著地改进模型。预测 2:GPT-4 试图寻找"最优"
  当涉及到优化时,语言模型会遇到一个关键的问题。训练如此昂贵,以至于企业不得不在准确性和成本之间做出权衡。而这种抉择常常会导致模型明显未优化。
  GPT-3 只被训练了一次,仍有一些错误,这些错误在某些情况下可能会导致重新训练。由于成本太高、负担不起,OpenAI 决定不进行优化,而这使得研究人员无法找到模型的最佳超参数集(例如学习速率、批尺寸、序列长度等)。
  训练成本很高导致的另一个后果是模型行为的分析受到限制。当 Kaplan 的团队总结出模型大小是提高性能最相关的变量时,他们没有考虑到训练令牌的数量 —— 也就是输入模型的数据量。这样做将需要大量的计算资源。
  科技公司遵循 Kaplan 的结论,因为这已是他们所知最好的想法。讽刺的是,正是受到经济限制的影响,谷歌、微软、Facebook 和其他公司在越来越大的模型上"浪费"了数百万美元,并且在这个过程中产生了大量的污染。
  现在,以 DeepMind 和 OpenAI 为首的公司正在探索其他方法。他们试图找到最优模型,而不仅仅是更大的模型。
  最佳参数化
  上个月,微软和 OpenAI 证明,如果使用最优超参数训练模型,GPT-3 可以得到进一步的改进。他们发现,6.7B 版 GPT-3 的性能提高了很多,可以与最初的 13B 版 GPT-3 媲美。超参数调优(对于较大的模型来说不可行)赋予的性能提升相当于参数数量增加了一倍。
  他们发现了一种新的参数化 (μP),在这种参数化中,小型模型的最佳超参数也同样适用于同类大型模型。μP 使他们能够优化任意大小的模型,而且只需花费很小一部分的培训成本。然后这些超参数可以几乎不花钱地转移到更大的模型中。
  最优计算模型
  几周前,DeepMind 重新审视了 Kaplan 的发现,并意识到训练令牌的数量与模型大小一样影响性能,而这与人们的看法相反。他们的结论是,随着更多的计算预算可用,应该将其平均分配给可缩放参数和数据。他们通过训练 Chinchilla 来证明自己的假设,Chinchilla 是一个 70B 模型(是曾经的 SOTA,比 Gopher 小 4 倍),它使用的数据是 GPT-3 (1.4T 令牌-来自典型的 300B)以来所有大型语言模型的 4 倍。
  结果是明确的。在许多语言基准测试中,Chinchilla"一致且显著地"优于 Gopher、GPT-3、MT-NLG 和所有其他语言模型,而目前的模型有过大的问题,且训练不足。
  考虑到 GPT-4 将略大于 GPT-3,根据 DeepMind 的发现,GPT-4 需要达到计算优化的训练令牌数量将约为 5 万亿,比当前的数据集高出一个数量级。他们需要训练模型以达到最小训练损失的失败次数,将比他们使用 GPT-3(使用 Gopher 的计算预算作为代替)时多 10 - 20 倍。
  Altman 在问答中说 GPT-4 将比 GPT-3 使用更多的计算时,可能就是在指这一点。
  OpenAI 肯定会对 GPT-4 进行优化相关的调查 —— 尽管具体到什么程度还无法预测,因为他们的预算是未知的。可以肯定的是,OpenAI 将专注于优化除模型大小之外的其他变量。找到超参数的最佳集合,最优计算模型大小和参数的数量可以在所有基准测试中带来难以置信的改进。如果将这些方法合并到一个模型中,那这个模型将会达到一个所有预测都难以想象的高度。
  Altman 还说,如果不把模型做大,人们就不会相信模型能有多好。他可能是指扩大模型尺寸的工作目前已经结束。预测 3:GPT-4 将是一个纯文本模型
  深度学习的未来是多模态模型。人类的大脑有多种感觉,这是因为我们生活在一个多模态的世界。每次只以一种模式感知世界,极大地限制了人工智能处理或理解世界的能力。
  然而,良好的多模态模型比良好的仅用语言或仅用视觉的模型要难得多。将视觉信息和文本信息组合成单一的表示形式是一项艰巨的任务。我们对大脑是如何做到这一点的了解非常有限(并不是说深度学习社区考虑了认知科学对大脑结构和功能的见解),所以我们不知道如何在神经网络中实施。
  Altman 在问答中说 GPT-4 不会是多模态的(像 DALL・E 或 LaMDA 那样),而是一个纯文本模型。因此,Alberto 的猜测是,在跳到下一代多模态人工智能之前,他们试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限。预测 4:GPT-4 将是一个密集模型
  稀疏模型利用条件计算,使用模型的不同部分处理不同类型的输入。稀疏模型最近取得了巨大的成功,其可以很容易地扩展到超过 1T 参数标记,而不会产生高额的计算成本,能够在模型大小和计算预算之间创建一个看似正交的关系。然而,MoE 方法的好处在非常大的模型上就没那么多了。
  考虑到 OpenAI 关注密集语言模型的历史,Alberto 认为,GPT-4 大概率也将是一个密集模型。又因为 Altman 说 GPT-4 不会比 GPT-3 大很多,我们可以得出结论,稀疏性不是 OpenAI 的选择 —— 至少目前是这样。
  鉴于人工智能的灵感来源,即人类大脑,严重依赖于稀疏处理。与多模态一样,稀疏性很可能会主导未来几代的神经网络。预测 5:GPT-4 会比 GPT-3 更对齐
  OpenAI 在解决 AI 对齐问题上投入了大量的精力:如何让语言模型遵循我们的意图并坚持我们的价值观 —— 不管这到底意味着什么。这不仅是一个数学难题(例如,我们如何让人工智能准确理解我们想要的东西?),而且也是一个哲学难题(比如没有一种通用的方法可以让人工智能与人类保持一致,因为人类价值观在不同群体之间的差异是巨大的,而且常常互相冲突)。
  他们使用 InstructGPT 进行了第一次尝试,这是一种通过人类的反馈来学习遵守指令的新 GPT-3 (不管这些指令是出于好意还是恶意,都没有被纳入模型中)。
  InstructGPT 的主要突破在于,不管其在语言基准上的结果如何,其都被人类评审认为是一个更好的模型(这些评审是一个由 OpenAI 员工和英语人士构成的同质的群体,所以我们应该对得出的结论保持谨慎的态度)。这显著表明,我们有必要克服把基准作为评估人工智能能力的唯一指标。人类如何感知这些模型可能同样重要,如果不是更重要的话。
  考虑到 Altman 和 OpenAI 要遵守作为一个有益 AGI 的承诺,我相信 GPT-4 将实现并构建他们从 InstructGPT 中获得的发现。
  我认为他们将改进对齐模式的方式,因为目前为这个模型制作标签的仅限于 OpenAI 员工和英语人士。而真正的对齐应该包括各种性别、种族、国籍等方面群体。这是一个巨大的挑战,朝着这个目标迈进的任何一步都将受到大众的欢迎。6 总结
  模型大小:GPT-4 将比 GPT-3 大,但与目前最大的模型(MT-NLG 530B 和 PaLM 540B)相比不是很大。模型规模不会是一个显著的特征。
  最优性:GPT-4 将比 GPT-3 使用更多的计算。GPT-4 将实现对参数化(最优超参数)和比例法则(训练令牌的数量与模型大小同样重要)的新优化见解。
  多模态:GPT-4 将是一个纯文本模型,而不是多模态模型。OpenAI 希望在完全跳到像 DALL・E 这样的多模态模型之前先充分利用好语言模型。
  稀疏性:按照 GPT-2 和 GPT-3 的趋势,GPT-4 将是一个密集模型(所有参数将用于处理任何给定的输入)。在未来,稀缺性将变得更加重要。
  对齐:GPT-4 将比 GPT-3 更对齐,其将从 InstructGPT 进行学习,而 InstructGPT 是根据人类的反馈进行训练的。不过,人工智能的对齐还有很长的路要走,我们应该仔细评估所做出的工作,而不应该对此进行炒作。
  你怎么看?
  参考链接:
  https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45
  https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe
  https://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/

助力北京冬奥会,太锡铁路太崇段年底开通设计时速160公里IT之家7月17日消息据中国铁路发布,日前,新建太锡铁路太崇段全线无砟轨道施工全部完成,为线路全面启动铺轨工作奠定坚实基础。太锡铁路太崇段是2022年北京冬奥会太子城核心区域至崇礼马斯克隧道挖掘公司扩大业务,竞标佛州地下运输系统北京时间7月8日消息,美国佛罗里达州劳德代尔堡市市长迪恩特兰塔利斯(DeanJ。Trantalis)周二发布推文称,埃隆马斯克(ElonMusk)旗下隧道挖掘公司BoringCom美团透露饿了么收购细节90亿美金是我们抬上去的!感谢IT之家网友饭前消息的线索投递!今日美团点评联合创始人高级副总裁王慧文在接受其采访时透露,阿里收购饿了么前,美团也出过一次价,并最终成功抬价。对于此内容,阿里巴巴旗下饿了么公关拼多多的三级跳拼多多拿出了一份超出预期的财报。11月20日盘前,拼多多发布2018年第三季度财报。财报显示,拼多多第三季度净营收为人民币33。724亿元(约合4。910亿美元),较去年同期增长6净亏损25亿元!美团点评公布第三季度财报IT之家11月22日消息今天,美团公布了截至2018年9月30日第三季度业绩财报,财报显示,美团点评第三季度营收191亿元人民币,同比增长97。2,经调整亏损净额24。63亿元人民消息称腾讯音乐IPO拟推迟至明年初,官方不予置评有外媒报道称,最初计划于今年10月赴美上市的腾讯音乐,正考虑将IPO推迟至2019年初,对此,腾讯音乐向TechWeb回应称,不予置评。10月2日晚间,腾讯音乐正式递交赴美上市招股中国移动与云上贵州签署基础设施协议提升苹果iCloud中国内地业务体验近日,中国移动与云上贵州签署基础设施协议,这标志着中国移动正式成为国内首批为云上贵州运营的iCloud中国内地业务的云存储服务提供商之一。根据协议,中国移动将为云上贵州运营的iCl诺基亚与中国移动联通电信签框架协议,价值超20亿欧元北京时间11月7日下午消息,诺基亚已经与中国移动中国电信和中国联通三家运营商分别签订框架协议,总价值超过20亿欧元。按照协议,诺基亚将在中国部署技术和服务,优化固定及移动宽带网络的俄罗斯移动运营商起诉惠普企业打造的移动网络故障频发北京时间11月6日晚间消息,最新一份法庭文件显示,俄罗斯第二大移动运营商Megafon将惠普企业公司(HewlettPackardEnterprise)告上加州法庭,称后者帮助打造消息人士腾讯音乐或于11月15日赴美IPO10月29日消息,凤凰网科技从消息人士处获悉,腾讯音乐或将于11月15日赴美首次公开招股。此前,腾讯音乐在10月2日向SEC(美国证券交易委员会)递交赴美上市招股书。随后有消息称,消息称拜腾考虑IPO,为扩张业务筹集资金10月28日消息,据国外媒体报道,电动汽车生产商拜腾(Byton)CEO及共同创始人毕福康(CarstenBreitfeld)对德国汽车周报表示,可能进行首次公开发行(IPO),为
律师称网易将患病员工裁员涉违法医疗期内不得开除员工,赔偿应为2NIT之家11月25日消息近日,有网易前员工发文称在患绝症情况下遭公司变相裁员。他猜测公司为阻止其拿N1赔偿,故意打D绩效,修改其考勤记录。今天网易两次发声明回应,称该员工绩效确不合网易称被裁员工谎称心脏病遭员工否认请公司给出证明发布网易裁员文章的作者在其微信公众号上发声称,针对网易某位程序总监所述,公司内部统一口径是我谎称心脏病一事。自己所有的医疗材料都提供给了公司,既然公司认定我的病是假的,请公司给出证传网易暴力裁患绝症员工,内部人士正在了解核实11月24日晚间消息,今日一篇名为网易裁员,让保安把身患绝症的我赶出公司。我在网易亲身经历的噩梦!的文章在朋友圈中广为流传。对于该内容,网易集团及网易游戏均暂无官方回应,不过有网易亚马逊通过AmazonSmile慈善项目捐款逾1亿美元北京时间10月29日晚间消息,亚马逊今日宣布,自2013年以来,已向消费者指定的慈善机构捐款逾1亿美元。2013年,亚马逊推出了AmazonSmile慈善项目。在不额外增加消费者负京东方A投建12英寸OLED微显示器件生产线项目IT之家12月26日消息今日下午,京东方A(000725)发布公告称,为满足ARVR高端市场需求,提升项目公司竞争力,拟投资34亿元(其中公司出资18。4620亿元),用于12英寸商务部三星等巨头加大对华投资,全年投入均超1亿美元IT之家1月21日消息今日上午,国务院新闻办公室举行新闻发布会。据第一财经消息,在答记者问时,商务部外贸司司长宗长青将我国2019年外资工作表现概括为五个亮点或趋势。其中,在引资结三星任命智能手机部门新负责人以对抗中国竞争对手北京时间1月21日凌晨消息,近年以来,三星的领导层发生了很大变动,部分原因是受到丑闻的影响,或是该公司重新思考战略。该公司最新的一次重组属于后一类这家韩国企业集团希望让自己变得更加投资5亿美元!三星智能手机显示屏印度造1月20日消息,据国外媒体报道,三星电子(Samsung)将投资5亿美元,在印度首都新德里市的郊区建立一家智能手机显示屏工厂。在印度智能手机市场,三星电子曾一度占领先地位。图注2012GB1TB三星GalaxyS10顶配版京东6999元12期免息三星GalaxyS1012GB1TB版京东现已降至6999元,支持12期白条免息点此购买。外观上,GalaxyS10采用了与S10一致的双曲面玻璃金属中框设计,正面配备一块6。4英京东方将停止LCD产能投资,转向OLED和MiniLED12月9日消息,据国外媒体报道,半导体显示技术公司京东方(BOE)宣布,将停止LCD产能投资,转向OLED和MiniLED。过去两年,京东方超过乐金显示(LGDisplay),成为realme今年将推出电视品类1月7日消息,今天realme在京发布了旗下首款5G手机realmeX50。不仅如此,realme还在此次发布会上公布了2020年的发展目标和未来发展重点。realmeCMO徐起在