范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

全球首例世界最大芯片解锁人脑级AI模型,集群顶配1。63亿核心

  8 月 25 日报道,那个打造出世界最大计算芯片的硅谷明星创企 Cerebras Systems,正将"做大做强"的战略贯彻到极致!
  今日凌晨,Cerebras Systems 宣布推出世界上第一个人类大脑规模的 AI 解决方案,一台 CS-2 AI 计算机可支持超过 120 万亿参数规模的训练。相比之下,人类大脑大约有 100 万亿个突触。
  此外,Cerebras 还实现了 192 台 CS-2 AI 计算机近乎线性的扩展,从而打造出包含高达 1.63 亿个核心的计算集群。
  Cerebras 成立于 2016 年,迄今在 14 个国家拥有超过 350 位工程师,此前 Cerebras 推出的世界最大计算芯片 WSE 和 WSE-2 一度震惊业界。
  WSE-2 采用 7nm 工艺,是一个面积达 46225 平方毫米的单晶圆级芯片,拥有 2.6 万亿个晶体管和 85 万个 AI 优化核,无论是核心数还是片上内存容量均远高于迄今性能最强的 GPU。
  WSE-2 被集成在 Cerebras CS-2 AI 计算机中。随着近年业界超大规模 AI 模型突破 1 万亿参数,小型集群难以支撑单个模型的高速训练。
  而 Cerebras 最新公布的成果,将单台 CS-2 机器可支持的神经网络参数规模,扩大至现有最大模型的 100 倍 —— 达到 120 万亿参数。
  在国际芯片架构顶会 Hot Chips 上,Cerebras 联合创始人兼首席硬件架构师 Sean Lie 详细展示了实现这一突破的新技术组合,包括 4 项创新:
  (1)Cerebras Weight Streaming:一种新的软件执行架构,首次实现在芯片外存储模型参数的能力,同时提供像片上一样的训练和推理性能。这种新的执行模型分解了计算和参数存储,使得扩展集群大小和速度更加独立灵活,并消除了大型集群往往面临的延迟和内存带宽问题,极大简化工作负载分布模型,使得用户无需更改软件,即可从使用 1 台 CS-2 扩展到 192 台 CS-2。
  (2)Cerebras MemoryX:一种内存扩展技术,为 WSE-2 提供高达 2.4PB 的片外高性能存储,能保持媲美片上的性能。借助 MemoryX,CS-2 可以支持高达 120 万亿参数的模型。
  (3)Cerebras SwarmX:是一种高性能、AI 优化的通信结构,将片上结构扩展至片外,使 Cerebras 能够连接多达 192 台 CS-2 的 1.63 亿个 AI 优化核,协同工作来训练单个神经网络。
  (4)Selectable Sparsity:一种动态稀疏选择技术,使用户能够在模型中选择权重稀疏程度,并直接减少 FLOP 和解决时间。权重稀疏在机器学习研究领域一直颇具挑战性,因为它在 GPU 上效率极低。该技术使 CS-2 能够加速工作,并使用包括非结构化和动态权重稀疏性在内的各种可用稀疏性类型在更短的时间内生成答案。
  Cerebras 首席执行官兼联合创始人 Andrew Feldman 称这推动了行业的发展。阿贡国家实验室副主任 Rick Stevens 亦肯定这一发明,认为这将是我们第一次能够探索大脑规模的模型,为研究和见解开辟广阔的新途径。一、Weight Streaming:存算分离,实现片外存储模型参数
  使用大型集群解决 AI 问题的最大挑战之一,是为特定的神经网络设置、配置和优化它们所需的复杂性和时间。软件执行架构 Cerebras Weight Streaming 恰恰能降低对集群系统编程的难度。
  Weight Streaming 建立在 WSE 超大尺寸的基础上,其计算和参数存储完全分离。通过与最高配置 2.4PB 的存储设备 MemoryX 结合,单台 CS-2 可支持运行拥有 120 万亿个参数的模型。
  参与测试的 120 万亿参数神经网络由 Cerebras 内部开发,不是已公开发布的神经网络。
  在 Weight Streaming 中,模型权重存在中央芯片外存储位置,流到晶圆片上,用于计算神经网络的每一层。在神经网络训练的 delta 通道上,梯度从晶圆流到中央存储区 MemoryX 中用于更新权重。
  与 GPU 不同,GPU 的片上内存量很小,需要跨多个芯片分区大型模型,而 WSE-2 足够大,可以适应和执行超大规模的层,而无需传统的块或分区来分解。
  这种无需分区就能适应片上内存中每个模型层的能力,可以被赋予相同的神经网络工作负载映射,并独立于集群中所有其他 CS-2 对每个层进行相同的计算。
  这带来的好处是,用户无需进行任何软件更改,就能很方便地将模型从运行在单台 CS-2 上,扩展到在任意大小的集群上。也就是说,在大量 CS-2 系统集群上运行 AI 模型,编程就像在单台 CS-2 上运行模型一样。
  Cambrian AI 创始人兼首席分析师 Karl Freund 评价道:"Weight Streaming 的执行模型非常简洁、优雅,允许在 CS-2 集群难以置信的计算资源上进行更简单的工作分配。通过 Weight Streaming,Cerebras 消除了我们今天在构建和高效使用巨大集群方面所面临的所有复杂性,推动行业向前发展,我认为这将是一场变革之旅。"
  二、MemoryX:实现百万亿参数模型
  拥有 100 万亿个参数的人脑规模级 AI 模型,大约需要 2PB 字节的内存才能存储。
  前文提及模型参数能够在片外存储并高效地流至 CS-2,实现接近片上的性能,而存储神经网络参数权重的关键设施,即是 Cerebras MemoryX。
  MemoryX 是 DRAM 和 Flash 的组合,专为支持大型神经网络运行而设计,同时也包含精确调度和执行权重更新的智能。
  其架构具有可扩展性,支持从 4TB 至 2.4PB 的配置,支持 2000 亿至 120 万亿的参数规模。三、SwarmX:几乎线性扩展性能,支持 192 台 CS-2 互连
  虽然一台 CS-2 机器就可以存储给定层的所有参数,但 Cerebras 还提议用一种高性能互连结构技术 SwarmX,来实现数据并行性。
  该技术通过将 Cerebras 的片上结构扩展至片外,扩展了 AI 集群的边界。
  从历史上看,更大的 AI 集群会带来显著的性能和功率损失。在计算方面,性能呈亚线性增长,而功率和成本呈超线性增长。随着越来越多的图形处理器被添加到集群中,每个处理器对解决问题的贡献越来越小。
  SwarmX 结构既做通信,也做计算,能使集群实现接近线性的性能扩展。这意味着如果扩展至 16 个系统,训练神经网络的速度接近提高 16 倍。其结构独立于 MemoryX 进行扩展,每个 MemoryX 单元可用于任意数量的 CS-2。
  在这种完全分离的模式下,SwarmX 结构支持从 2 台 CS-2 扩展到最多 192 台,由于每台 CS-2 提供 85 万个 AI 优化核,因此将支持多达 1.63 亿个 AI 优化核的集群。
  Feldman 说,CS-2 的利用率要高得多。其他方法的利用率在 10%~20% 之间,而 Cerebras 在最大网络上的利用率在 70%~80% 之间。"今天每个 CS2 都取代了数百个 GPU,我们现在可以用集群方法取代数千个 GPU。"
  四、Selectable Sparsity:动态稀疏提升计算效率
  稀疏性对提高计算效率至为关键。随着 AI 社区努力应对训练大型模型的成本呈指数级增长,用稀疏性及其他算法技术来减少将模型训练为最先进精度所需的计算 FLOP 愈发重要。
  现有稀疏性研究已经能带来 10 倍的速度提升。
  为了加速训练,Cerebras 提出一种新的稀疏方法 Selectable Sparsity,来减少找到解决方案所需的计算工作量,从而缩短了应答时间。
  Cerebras WSE 基于一种细粒度的数据流架构,专为稀疏计算而设计,其 85 万个 AI 优化核能够单独忽略 0,仅对非 0 数据进行计算。这是其他架构无法做到的。
  在神经网络中,稀疏有多种类型。稀疏性可以存在于激活和参数中,可以是结构化或非结构化。
  Cerebras 架构特有的数据流调度和巨大的内存带宽,使此类细粒度处理能加速动态稀疏、非结构化稀疏等一切形式的稀疏。结果是,CS-2 可以选择和拨出稀疏,以产生特定程度的 FLOP 减少,从而减少应答时间。
  结语:新技术组合让集群扩展不再复杂
  大型集群历来受设置和配置挑战的困扰,准备和优化在大型 GPU 集群上运行的神经网络需要更多时间。为了在 GPU 集群上实现合理的利用率,研究人员往往需要人工对模型进行分区、管理内存大小和带宽限制、进行额外的超参数和优化器调优等复杂而重复的操作。
  而通过将 Weight Streaming、MemoryX 和 SwarmX 等技术相结合,Cerebras 简化了大型集群的构建过程。它开发了一个全然不同的架构,完全消除了扩展的复杂性。由于 WSE-2 足够大,无需在多台 CS-2 上划分神经网络的层,即便是当今最大的网络层也可以映射到单台 CS-2。
  Cerebras 集群中的每台 CS-2 计算机将有相同的软件配置,添加另一台 CS-2 几乎不会改变任何工作的执行。因此,在数十台 CS-2 上运行神经网络与在单个系统上运行在研究人员看来是一样的,设置集群就像为单台机器编译工作负载并将相同的映射应用到所需集群大小的所有机器一样简单。
  总体来说,Cerebras 的新技术组合旨在加速运行超大规模 AI 模型,不过就目前 AI 发展进程来看,全球能用上这种集群系统的机构预计还很有限。

中微公司ICP刻蚀设备Primonanova第100台反应腔交付IT之家6月13日消息从中微公司获悉,6月9日,中微半导体设备(上海)股份有限公司在上海总部举办电感耦合等离子体(ICP)刻蚀设备Primonanova第100台反应腔交付客户庆祝优酷诉VIP视频被破解要求停止侵权行为,赔偿损失150万元IT之家6月16日消息国内三大在线视频平台腾讯视频爱奇艺优酷视频用户众多,但总有一些用户因为其会员定价不合适或者会员专属广告等原因转投盗版平台,或是寻求所谓的破解版。企查查App显抖音因提供含有禁止内容被罚3万元IT之家6月8日消息抖音App是一款国民性的短视频平台,其中内容繁多,甚至夹杂着一些违法内容。企查查App显示,近日,北京微播视界科技有限公司被北京市海淀区文化和旅游局行政处罚,处欧洲央行官员数字欧元能提供更好的隐私保护6月21日消息,据国外媒体报道,欧洲央行执行董事会成员FabioPanetta认为,数字欧元将保护消费者的隐私,并保护欧元区免受可能损害其货币主权的竞争性加密货币的威胁。帕内塔批评高考成绩开始放榜,微信小程序搜一搜可查高考分数招生信息IT之家7月23日消息今日2020年全国高考成绩已陆续公布。微信官方也向考生及家长们介绍了3种官方渠道查询高考成绩。方法1微信搜一搜搜索国家政务服务平台小程序,进入高考成绩查询还未苹果iPhone13热销,鸿海订单爆满,郑州富士康扩大招工计划IT之家2月7日消息,据中国台湾经济日报报道,苹果iPhone13热销,最大组装厂鸿海集团订单爆满,赶在新年假期结束前放出大招工计划。集团旗下iPhone组装大本营郑州富士康iDP联想拯救者Y90电竞手机渲染图曝光外观极具辨识度,竟还有素皮版本IT之家1月27日消息,早在本月初,联想就公布了拯救者Y90双擎风冷电竞手机的外观,其延续了拯救者电竞手机2Pro的设计,但在细节上前者要更夸张一些。拯救者Y90内置了主动散热涡轮中国互联网公司福利简史联想与北京环球影城缘分不浅。2021年11月初,网红话痨威震天到访联想在西二旗的总部做客,引来数千员工围观。最近,又传出联想要包场环球影城作为年会举办地互联网人只能表示羡慕,久违的腾讯王者荣耀首部官方出品短篇日常动画剧集是王者啊?将在3月18日首播IT之家3月11日消息,今天王者荣耀官方宣布,王者荣耀官方短篇日常动画是王者啊?第一季正式定档。官方表示,作为王者荣耀首部官方出品的短篇日常动画剧集,是王者啊?第一季讲述了在塞外边谷歌斥资10亿美元买下伦敦办公楼押注线下复工北京时间1月14日上午消息,据报道,谷歌宣布将花费10亿美元购买其靠近伦敦托特纳姆法院路的办公楼,表明该公司正在大举押注线下复工。事实上,谷歌还在伦敦的国王十字街建设一个新的总部,仅用5分钟,程序员把一个超400MB的苹果iOS应用安装包削掉了187MB前些日子,一个手机QQ安装包就要快900MB的事儿在网上吵得沸沸扬扬。最新安装包又大了,已经924MB虽然最后大家发现它主要为了视频通话特效多了一个虚幻引擎,但网友还是感叹现在的A
打人事件后,苹果Netflix放弃竞标威尔史密斯传记电影北京时间4月5日消息,自从知名演员威尔史密斯(WillSmith)在奥斯卡颁奖典礼上掌掴主持人后,一些电影公司开始与他保持距离。据太阳报报道,Netflix和AppleTV等平台曾手机供应链库存调整,PA相关化合物半导体成重灾区据DigiTimes报道,中国大陆智能手机市场下调,相关零部件库存继续调整,其中手机功率放大器(PA)相关的三五族化合物半导体晶圆代工可能成为重灾区。化合物半导体晶圆代工龙头稳懋第华为公布可卷曲电子设备专利收纳空间小,可适用于便携设备IT之家5月6日消息,国家知识产权局信息显示,今日,华为技术有限公司柔性屏支撑机构及可卷曲的电子设备专利获授权,公布号为CN114439843A。专利摘要显示,该申请提供的柔性屏支上海首批重点企业复工率超九成汽车集成电路等产业链持续恢复提高产能感谢IT之家网友蓝海岸Nibiru的线索投递!IT之家5月6日消息,5月5日,上海举行第174场新冠肺炎疫情防控工作新闻发布会。上海经信委表示,刚刚过去的五一劳动节,上海市已复工复印度要有第一座晶圆芯片代工厂投资30亿美元,采用65nm工艺感谢IT之家网友肖战割割的线索投递!集微网消息,路透社5月1日消息,印度南部卡纳塔克邦官员表示,半导体财团ISMC将在该邦投资30亿美元,建立一个芯片制造厂,采用逻辑制程65nm。汽车零部件供应商博世疫情俄乌战争导致生产成本急剧攀升,压力将转嫁给客户集微网消息,今年以来,随着全球局部疫情的持续爆发,加之俄乌战争等各种不确定因素的影响,给全球半导体供应链蒙上了一层阴影,即便是全球顶级大厂,也未能幸免于难。近日,德国汽车零部件供应格芯与美国国防部签署45nmSOI敏感芯片供应协议,首批2023年交付集微网消息,格芯与美国国防部(DoD)签署了一项价值1。17亿美元的协议,为后者提供差异化的45nmSOI平台制造的半导体芯片。这些芯片将用于美国国防和航空航天领域的敏感应用。首批消息称联发科瑞昱为WiFi芯片寻求更多1612nm产能,未来WiFi7制程更先进尽管今年上半年WiFi核心芯片供应持续紧张,但联发科和瑞昱出货量在第一季度显示出改善的迹象。据业内人士透露,联发科和瑞昱半导体都在继续争取更多可用的WiFi核心芯片的16nm和12荣耀赵明做手机的人,没资格抱怨这个行业日前,荣耀智能制造产业园正式挂牌智能制造示范工厂,同时荣耀Magic4系列产线和荣耀制造质量实验室也首次对外开放。当日,荣耀终端有限公司CEO赵明接受了网易科技等媒体采访。在采访中那个曾怒作狗日的腾讯的计算机世界,按下了停业键IT之家4月28日消息,计算机世界官方4月27日晚间宣布正式做出了纸媒业务停工停产的决定,但是,计算机世界消失的仅仅是纸,计算机世界的品牌还将一直为行业服务下去。计算机世界表示,2联想承诺2025年全线计算机产品100含再生塑料4月21日晚间消息,联想公布ESG新进展,承诺到2025年,全线计算机产品100含有再生塑料,累计使用量达到13万吨。联想集团副总裁电脑和智能设备首席质量官王会文表示,联想通过绿色