范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

在场虚拟空间单机训练200亿参数大模型Cerebras打破新纪录

  转载自机器之心
  本周,芯片创业公司 Cerebras 宣布了一个里程碑式的新进展:在单个计算设备中训练了超过百亿参数的 NLP(自然语言处理)人工智能模型。
  由 Cerebras 训练的 AI 模型体量达到了前所未有的 200 亿参数,所有这些都无需横跨多个加速器扩展工作负载。这项工作足以满足目前网络上最火的文本到图像 AI 生成模型——OpenAI 的 120 亿参数大模型 DALL-E。
  Cerebras 新工作中最重要的一点是对基础设施和软件复杂性的要求降低了。这家公司提供的芯片 Wafer Scale Engine-2(WSE2)顾名思义,蚀刻在单个台积电 7 nm 制程的整块晶圆上,该面积通常足以容纳数百个主流芯片——具有惊人的 2.6 万亿个晶体管、85 万个 AI 计算内核和 40 GB 集成缓存,封装后功耗高达 15kW。
  接近晶圆大小的 Wafer Scale Engine-2,面积比一个 iPad 还大。
  虽然 Cerebras 的单机在体量上已经类似于超算了,但在单块芯片中保留多达 200 亿个参数的 NLP 模型仍然显著降低了数千个 GPU 的训练成本,以及相关的硬件和扩展要求,同时消除了在它们之间分割模型的技术困难。Cerebras 表示,后者是「NLP 工作负载中最痛苦的方面之一」,有时「需要几个月才能完成」。
  这是一个定制化的问题,不仅对每个正在处理的神经网络,对于每个 GPU 的规格以及将它们联系在一起的网络都是独一无二的——这些元素必须在第一次训练开始之前提前设置好,而且也不能跨系统移植。
  Cerebras 的 CS-2 是一个独立的超级计算集群,其中包括 Wafer Scale Engine-2 芯片,所有相关的电源、内存和存储子系统。
  200 亿的参数量大概是个什么水平?在人工智能领域里,大规模预训练模型是最近各家科技公司和机构正在努力发展的方向,OpenAI 的 GPT-3 是一种 NLP 模型,它可以写出足以欺骗人类读者的整篇文章、做数学运算和翻译,其具有惊人的 1750 亿个参数。DeepMind 的 Gopher 于去年年底推出,将参数量的纪录提高到 2800 亿。
  最近一段时间,谷歌大脑甚至宣布训练了一个超过万亿参数的模型 Switch Transformer。
  「在 NLP 领域中,体量更大的模型被证明效果更好。但传统上,只有极少数公司拥有足够的资源和专业知识来完成分解这些大型模型,将其分散到数百或数千个图形处理单元的艰苦工作,」Cerebras 首席执行官、联合创始人 Andrew Feldman 说道。「因此也只有极少数公司可以训练大型 NLP 模型——这对于行业的其他人来说太昂贵、太耗时且无法使用。」
  现在,Cerebras 的方法能够降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的应用门槛,使整个 AI 生态系统能够在几分钟内建立大型模型,并在单个 CS-2 系统上训练它们 。
  然而,就像旗舰级 CPU 的时钟速度一样,参数量只是大模型性能的其中一项指标。最近,一些研究在减少参数的前提下已经取得了更好的结果,例如 DeepMind 今年 4 月提出的 Chinchilla,只用 700 亿个参数就在常规情况下超过了 GPT-3 和 Gopher。
  这类研究的目标当然是更智能的工作,而不是更努力地工作。因此 Cerebras 的成就比人们第一眼看到的更为重要——该研究让我们相信现有的芯片制程水平能够适应日益复杂的模型,该公司表示,以特殊芯片为核心的系统具备了支撑「数千亿甚至数万亿参数」模型的能力。
  在单芯片上可训练参数量的爆炸式增长需要依赖 Cerebras 的 Weight Streaming 技术。该技术可以将计算和内存占用分离,根据 AI 工作负载中快速增长的参数量,允许内存进行任意量级的扩展。这使得设置时间从几个月减少到几分钟,并且可以在 GPT-J 和 GPT-Neo 等型号之间切换。正如研究者所说:「只需要敲几次键盘。」
  「Cerebras 以低成本、便捷的方式向人们提供了运行大型语言模型的能力,开启了人工智能令人兴奋的新时代。它为那些不能花费数千万美元的组织提供了一个简单而廉价的,参与到大模型竞争之中的方式,」Intersect360 研究公司的首席研究官 Dan Olds 说道。「当 CS-2 客户在大量数据集上训练 GPT-3 和 GPT-J 级模型时,我们非常期待 CS-2 客户的新应用和新发现。」
  参考内容:
  https://www.tomshardware.com/news/cerebras-slays-gpus-breaks-record-for-largest-ai-models-trained-on-a-single-device
  https://www.cerebras.net/press-release/cerebras-systems-sets-record-for-largest-ai-models-ever-trained-on-a-single-device/

65岁后身体出现7种变化,是衰老的正常现象,合理调养晚年更健康对于年龄到了65岁以上的朋友,可以说真的是步入老年阶段了,随着年龄的增长,身体出现一些衰老的相关问题和变化,有些可能是疾病问题的影响,但有些则可能是随着年龄增长,大多数人都会出现的初识恶魔法术激活顺序初识恶魔法术激活顺序是粉绿蓝,游戏中初识恶魔法术这个任务需要激活三个正确的符文,一旦选错就会导致人物死亡。该任务的激活顺序是粉绿蓝,按名称就是塔姆塔拉尔德尔格拉,按位置就是左侧中间年轻女孩怎样穿搭,才能让自己显得更苗条?绝大多数的女孩儿都不满足于自己长得漂亮,而是更希望自己有一个好身材。那么年轻女孩如何穿搭才能让自己显得更苗条呢?1。一般说来,各种紧身衣服有利于塑形修体,使女孩显得更苗条一些。但是文旅推荐太平镇世外桃源2022年盛夏采摘节开幕6月11日,太平镇世外桃源2022年盛夏采摘节在南门分场开幕,吸引游客前来体验采摘乐趣。上午10时,在欢乐喜庆的歌舞表演中,太平镇世外桃源2022年盛夏采摘节正式开幕,游客以家庭为出海,一场腾讯的危险游戏图片来源视觉中国文价值星球Planet,作者唐飞在全球游戏公司中,腾讯是绝对的霸主。Newzoo数据显示,2021年是游戏的辉煌之年,全球总收入接近2000亿美元。其中的1270亿详解腾讯人才评估体系调整为了反内卷,鹅厂下狠手在过去的五到十年里,互联网经历了一段高速增长的时代,不少业务都飞速增长。而与之相伴的是人员规模的增长字节跳动在一年时间里从6万人扩张到10万人,现在已超过11万人阿里巴巴目前员工已职业危险!联盟下赛季大概率下课的主教练,纳什的概率最高NBA是一个商业联盟,作为一个商业联盟最显著的一个特点就是球队更新换代速度快,一个不小心就会被淘汰,而这其中,又属球主教练的职位更新速度更快,目前联盟中在同一支球队执教五年以上的教春晚年画娃娃邓鸣贺6岁上春晚,8岁去世,网友都怪他父母老话说天妒英才,只是没想到,这句话会体现在一个年仅八岁的孩子身上。2012年的龙年春晚,6岁的邓鸣贺提着灯笼亮相,惊艳了全国观众,一夜成名后,几乎人人都在谈论这个长得像年画娃娃一样俄航天局局长外星生命或正在研究人类文明来源海外网俄罗斯航天局局长德米特里罗戈津(资料图)海外网6月12日电据今日俄罗斯网站报道,俄罗斯航天局局长德米特里罗戈津11日在一档电视节目中表示,他相信外星生命的存在,它们可能比俄航天局局长外星生命或正在研究人类文明俄罗斯航天局局长德米特里罗戈津(资料图)海外网6月12日电据今日俄罗斯网站报道,俄罗斯航天局局长德米特里罗戈津11日在一档电视节目中表示,他相信外星生命的存在,它们可能比人类更聪明快速云谁会是中国未来私有云的主宰?国外就没有私有云!2020年,在一次会议中,记者无意中听到了一位专业人士的评论。其意大概在于,相对于公有云而言,私有云就是鸡肋,食之无味,弃之可惜。事实确实如此吗?那么众多企业,包
秋已尽冬将至引用又是一个秋风凉,亦是一季秋叶黄。说实话,不喜欢此时此刻的秋风扫落叶,如此的情景尽显无奈,树叶没有了前几日的妩媚,失去了浓妆艳抹的妖娆,渐渐地变得枯萎,随风而落,几分不愿,几分不人活着是心情人这一辈子,活的便是一个情字,爱情亲情友情等,但最重要是心情。正如古人所云,物随心转,境由心生,烦恼皆由心生。人生活的是心态,过的正是心情。时刻谨记,任何时候都不能让自己的心情生病悦读深秋在由旺工作之余,时常骑行在田间的小道。夏日里,碧波翻滚的荷叶已经干枯。荷杆儿,横七竖八的躺在田间。有的叶子,耷拉着脑袋,似乎在挣扎着,不愿离别那个热烈的季节。白云蓝天,荷田边种着的皇竹草从活着到活好你的情绪你做主生活对于每个人来说都有着不同的意义。尽管所有的人一天都是生活24小时,尽管大部分的人一天的内容都是围绕着一日三餐工作和家庭,但是每个人在这个过程中的感受却是不一样的。有的人觉得生活家有桂花今年开春,家里的小院刚落成,朋友送我一棵2米多高的桂花树。送来时枝繁叶茂,根系庞大,没法进门,不得已,只能把根部砍小,把枝条又剪去一些。树苗条了才进了门,就栽在小院的东侧,这里有一手机声音越用越小怎么办?只需要这几步,还能省了维修的费用大家都知道手机在我们日常生活中是不可缺少的一部分,不管是看短视频,还是打电话手机声音小都是非常头疼的一件事!前几天和我妈通电话,她说她的手机打电话听不清楚,看视频也是没多大声音,于苹果亲自降价!iPhone14系列一夜售空价格够低就真香11月1日消息,苹果公司于昨晚8点通过微信公众号推送了双11购物活动指南,正式揭开了苹果的购物节活动,其中iPhone14系列最高优惠550元iPhone13系列最高优惠700元。国产机里也有高端的,这3款很难挑出毛病,还比苹果便宜国产机里也有高端的,这3款很难挑出毛病,还比苹果便宜。小米11Pro优势影像三星GN2超大底传感器,自研夜枭算法夜景拍摄非常出色,50倍潜望式长焦散热冰封液冷散热系统续航5000m直接公布RedmiNote12系列销量及销售额!除了小米还有谁?昨天晚上8点,一年一度的双11大促正式拉开了序幕,作为每年都最受用户关注的手机品类,各大手机厂商早已提前做好了预售准备,均降价的很猛。至于各大手机厂商的销量情况,就要看官方公布的战中国数据中心一年耗电量,超过三峡大坝一年发电量,需降温黑科技当苹果公司等不少科技巨头宣布在中国贵州省建立数据中心后,不少人开始注意到了数据中心的重要性,它可以说是当今不少科技企业的生存根基,于是这让不少科技企业非常重视数据中心的建设工作。看海南自贸港首单遥感卫星AIS数据交易达成海南一号卫星AIS(船舶自动识别系统)信息数据日前在海南国际知识产权交易所达成许可交易,这是海南自贸港成功实施的首单遥感卫星AIS数据交易。此次达成的海南一号卫星AIS信息数据使用