范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大模型时代,国产GPU加速狂飙ChatAI

  当下,推理侧是更大的机会。
  文   杨逍、真梓
  编辑   石亚琼
  来源    数字时氪(ID:digital36kr)
  封面来源    视觉中国
  (ChinaIT.com讯)人工智能已然掀起新一次产业浪潮。
  近半月以来,人工智能领域大模型的消息层出不穷地传出。
  OpenAI出乎意料地推出大型多模态模型GPT-4;百度"文心一言"如约上线,在展示中呈现了文心一言在文学创作、数理逻辑推算、多模态生产等多元能力。
  腾讯总裁刘炽平表示会持续优化混元AI大模型;字节则传出了前达摩院大模型 M6 带头人入职,并参与语言生成大模型研发的消息。
  大模型被认为有着带来产业革命的力量,能为行业带来切实的生产力变革。
  谷歌率先宣布开放PaLM大模型的API,并将生成式AI功能用于各种应用程序;微软紧跟其后,宣布推出 Copilot AI产品,表明GPT-4等模型已具备被引入生产工具的稳定性。Adobe也宣布将与英伟达合作 ,探索将大模型能力引入产品中。
  一个人工智能的新时代即将展开。人工智能领域的创业热情被点燃,多位大佬官宣入局大模型赛道。
  创新工场CEO李开复、前搜狗CEO王小川、前京东AI掌门人周伯文、出门问问创始人李志飞,阿里技术副总裁贾扬清,这些声名赫赫的大佬,正一齐踏入大模型赛道的创业河流。
  然而,大模型的发展有算法、算力、数据三大重要因素,算力是大模型训练的重要能量引擎,也是目前国内发展大模型产业的一大壁垒。
  芯片能力直接影响着高算力训练效果和速度,这背后都是钱。芯片拥有数量的多少,也成为行业人士判断企业大模型能力的重要指标。
  在刚刚结束的GTC大会期间,英伟达不负众望,推出了适用于ChatGPT的专用GPU,可以将推理速度提升10倍。
  此外,针对中国用户,英伟达还按照A800操作模式(A100芯片的降维版本),推出了完全符合出口规定的H100的降维版本芯片,具体参数并未公布。
  然后,无论是此前针对中国的A800,还是H100中国版本,都和国外市场可使用的原版芯片存在差距。
  国外芯片是否能够撑起大模型的算力需求,成为行业内备受关注的问题。
  寻找A100
  OpenAI ChatGPT大模型能有今日风光,英伟达的A100功不可没。大模型的训练需要庞大的算力资源,GPU是大模型的最佳算力发动机。
  为了支撑OpenAI训练出ChatGPT,微软专门为OpenAI打造了一台由数万个A100 GPU组成的AI超级计算机,此外,还有60多个数据中心、几十万张GPU可以支持ChatGPT的推理工作。
  国内云计算相关专家认为,做好AI大模型的算力最低门槛是1万枚英伟达A100芯片。TrendForce研究则显示,以A100的算力为基础,GPT-3.5大模型需要高达2万枚GPU,未来商业化后可能需要超过3万枚。
  据台湾电子时报报道,微软等客户对英伟达的A100/H100芯片芯片需求强烈,目前英伟达订单能见度已至2024年,高端芯片非常紧缺。
  而国内拥有的超高算力芯片并不多。
  据《财经十一人》报道,国内云厂商主要采用的是英伟达的中低端性能产品,拥有超过1万枚GPU的企业不超过5家,其中,拥有1万枚英伟达A100芯片的最多只有一家。
  作为大模型的主要入局者,国内互联网大厂拥有天然的数据优势,自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。
  多位行业人士向36氪表示,自2022年9月,美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片后,国内大厂就开始大举囤芯片。
  一位为企业采购算力的从业者告诉36氪,有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品,目的仅是获得GPU芯片。"机子太多,存放的地方都不够用。"
  有接近百度的人士告诉36氪,百度拥有部分A100芯片,同时部署了少量昆仑芯。
  而另一家较早推出大模型的企业,在市面上抢芯的动作颇为激进,"几乎达到人尽皆知的程度"。
  英伟达曾申请在2023年3月1日前,为A100的美国客户提供所需的出口支持。
  如今期限已过, A100芯片的获取通道被锁死。英伟达特意为中国客户提供的降维版本GPU A800成为最叫卖的产品。此外,在3月的GTC大会上,英伟达发言人证实,将面向中国市场,推出符合管制要求的降维H100产品。
  与A100相比,A800的计算性能没有发生改变,但是它的数据传输速度被限制了,功耗增加了。换句话说,A800获得数据的速度变慢了,且使用起来更费电了,但,它的计算速度仍然优秀。
  目前,A800 80GB的显卡在京东上的售价达到了89999元,部分店铺甚至卖到了93999元,甚至超过了A100之前的价格。
  超算中心建设成本极高,除百度、华为等极少数公司会自行建设超算力中心,更多的企业通过租用超算中心算力的方式入局。
  在ChatGPT引领AI热潮后,数据中心的A100算力租用价格迅速上涨。
  零散的算力资源已达到一张卡每小时10元,哪怕相对便宜的批量化算力资源,也涨价近20%达到一卡每小时6-7元。就连A800的算力资源也变得紧缺起来,需要提前预定。
  一位数据标注从业者告诉36氪:"在飞天平台,现在想预定1000块A100,一定是没有的,如果想预定100块A100的算力,那可以排队试试。"
  如果,连A800都等不到,那使用英伟达高端GPU系列中,性能更差的V100进行训练,也不失为一种可能。
  在GTC大会上,面对强劲的算力需求,英伟达还新推出了云算力平台,企业可以租用算力,谷歌、微软AZURE等云算力平台会为其提供算力支持。黄仁勋表示中国也可以采用这个平台,但需要由阿里、腾讯等企业的云平台合作提供。
  一切又回到了原点。
  推理侧是机会
  虽然英伟达的产品可以降维使用,但国内大模型企业在训练和推理时会受到底层算力的影响。
  祥峰投资管理合伙人夏志进告诉36氪:"动态来看,海外企业会推出更大的模型,下一代需要的算力资源会更大,算力未来会是一个很大的挑战。"
  国产GPU芯片是否可以支撑大模型的算力需求?
  大模型对于算力的需求分为两个阶段,一是训练出ChatGPT一般大模型的过程;二是将这个模型商业化的推理过程。
  国产GPU可以做对信息颗粒度要求没有那么高的云端推理工作,但大多目前无法处理超高算力需求的云端训练。
  燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端GPU产品,且理论性能指标不弱。
  3月17日,李彦宏也在亚布力中国企业家论坛上分享,昆仑芯片现在很适合做大模型的推理,将来会适合做训练。
  登临科技联合创始人王平告诉36氪:"从现实角度来看,国内GPU新创公司的短期机会在推理侧,推理侧服务器需要采用一机多卡。登临的创新通用GPU产品Goldwasser具有更高的效率和能效比,能 实现很好助力客户实现降本增效,当然降本增效,也是现在以及未来云厂商需要解决的问题。"
  摩尔线程全功能GPU显卡可以完成AI模型的训练、推理、精调全流程,目前可以进行ChatGLM和GLM系列模型的推理,并且支持超大大模型的分布式推理和offload推理。
  大模型训练需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,现阶段国产GPU大多还不具备支撑大模型训练所需的能力。
  不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,在超算领域,双精度浮点计算能力FP64是进行高算力计算的硬性指标。
  英伟达的A100同时具备上述两类能力,而国内GPU芯片的云端训练公司,大多只能处理单精度浮点计算,如壁仞科技(通用GPU芯片BR100)、天数智芯("智铠100")、寒武纪(云端推理思元270)的产品在FP32的理论指标上做得不错,但没有处理FP64的能力。
  根据公开消息,目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器),但是它的性能只有A100的60%左右。
  王平认为,"国内通用GPU产品的确在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。"
  摩尔学院院长李丰告诉36氪,公司现阶段已经可以支持3亿参数量模型的训练,2022年底就提前布局了自然语言模型预训练,自研了MusaBert模型。
  目前,行业从业者在做相关的探索和努力,如思考能否通过Chiplet(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。
  一位Chiplet领域的从业者告诉36氪,某GPU明星大厂就曾询问能否通过Chiplet的方式达到大模型所需算力。
  王平也表示,"针对大模型训练市场,行业可以选择做出有特性、在某些维度性能上超过英伟达的产品。"
  目前国产GPU公司都在朝着大模型领域去做布局。
  昆仑芯回复36氪:"昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能,公司正在不断研发新的产品和技术,为ChatGPT等大模型的应用提供更佳的性能体验。"
  据王平介绍,登临科技首款产品Goldwasser已规模化运用在多家行业知名企业的主营业务中,新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升,对标国际大厂的产品有明显的能效比和性价比的优势。
  燧原科技宣布对公司品牌做战略升级,要打造AIGC时代的基础设施;摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。
  软件是更高的壁垒
  比起硬件性能上可接受的差异,软件适配与兼容让客户接受更难。
  当大模型和应用层面的竞争拉响,从商业角度思考,采用国产AI芯片参战并不是好的选择。
  从硬件性能上,使用国产AI芯片计算会比采用英伟达A100慢,在分秒必争的当下,"慢"是企业最不愿意看到的场景。
  此外,哪怕能通过堆芯片的方式堆出一个算力相当的产品,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。
  因为算力资源常需要以池化的形式呈现,数据中心通常更愿意采用同一种芯片,或者同一公司的不同芯片,来降低算力池化难度。
  对客户而言,把国产AI芯片用起来并不容易。
  算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。
  摩尔线程有着自己的全功能GPU芯片,且推出了AIGC平台,李丰告诉36氪:"最难的是生态的建立,我们要兼顾很多的生态兼容性。"
  先说CUDA,为了把GPU的算力能力进一步发挥,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。
  如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。一位关注基础软件的投资人告诉36氪:"没有CUDA ,调用GPU的代码会写到地老天荒,不可能所有的东西都自己写。"
  尚处于创业阶段的芯片设计公司,很难在生态上投入如此大的人力财力。大多会选择兼容CUDA架构,来降低客户使用门槛。
  也有部分公司会选择自研加速器,如寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能摆脱硬件需受CUDA更新的困扰。
  即使有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。
  目前世界上主流的深度学习框架都有基于CUDA进行加速的,整个产业中下游软件、驱动厂家等都基于此进行适配。这构成了一个极强大的生态壁垒,就像苹果系统内部的闭环生态,和windows操作系统+上层应用软件一样。
  对于企业来说,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否客户更换的意愿很低。
  祥峰投资管理合伙人夏志进也告诉36氪:"软件生态是好用不好用的问题,没有CUDA会提高门槛,不是不可以用,只是需要花很多额外的功夫。"
  芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。
  即使英伟达,为了更好发挥硬件的功效,对于大客户也会提供一些人力,帮忙做软件适配调试,软硬两方仍需要针对客户做部署、调试。
  对性能要求较高的大厂,还会设置专门的软件部署师对硬件进行适配,来发挥硬件的最大性能。这也是很多手机厂商会自研芯片来更好适配产品的原因。
  共建生态,寻求解法
  目前,国内从业者已经在构建生态上做努力。
  在一个AI生态中,支撑大模型训练需求,需要底层硬件、中间深度学习平台、上层应用软件的整体适配,互相支持。
  硬件对上层软件的支持情况,必须代码写出后,有人一步步躺坑,才能知道问题所在,改进硬件对软件的支持效果。
  一家C轮应用型软件公司告诉36氪,自己需要对不同类型、不同版本的基础软硬件进行适配,每年花在适配上的支出超出千万元。
  百度飞桨已在推动和国内芯片适配。
  2022年4月时,百度飞桨已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商,31种芯片的适配和优化,基本覆盖国内主流芯片。
  目前,昆仑芯和飞桨完成3级兼容性适配,登临科技和飞桨也完成2级适配,沐曦集成电路和飞桨完成1级兼容性测试。
  近期,华为的MindSpore被报道和爱可生向量数据库兼容。有信息显示,沐曦之前也已加入昇思MindSpore社区。
  另一个大模型领域重要玩家,智源研究院,其九鼎智算平台也在和多家国内AI芯片公司合作。
  未来,大模型训练对算力的需求会越来越大。比如,科研场景或训练视频类信息,都需要更大的算力支持。
  英伟达等厂商也会不断追求研发更高性能的芯片,海外企业可以购买英伟达算力更高的芯片,推动大模型训练。比如,微软已经和宣布加强和英伟达和合作,将GPU 从此前的 A100 升级到 H100。
  参战大模型竞赛,算法、算力、数据环环相扣。在最卡脖子的环节,如何缩小GAP,成为一个求共解的命题。

西甲直播c罗在皇马的时光充满了进球和奖杯克里斯蒂亚诺罗纳尔多(C罗)的新教练在看着满屋子的记者时谈到了他的惊讶。通常情况下比赛结束后只会有三到四个记者。今天我不知道为什么。阿尔纳斯尔队主教练鲁迪加西亚在介绍签约沙特阿拉伯夺冠后,为了150万离开勇士!如今才打8场比赛,他就要被交易?奥托波特,要被猛龙交易了根据随队记者透露,猛龙队内多名球员对波特的出勤率感到不满意。管理层方面,则因其伤病迟迟无法取得进展,有意在交易截止日前送走他。本赛季,波特只打了8场比赛,场绝了!法布雷加斯情史,35岁阿森纳巨星晒全家福,球迷太幸福!我的生活也是头条阿森纳巨星法布雷加斯已经到了职业生涯末年,35岁的小法在个人社交平台上晒了一张全家福,当年阿森纳巨星情史被记者爆料后,引发了不少人的热议,法布雷加斯当年娶了一位熟女14年军旅生涯,军衔少校,安置体育局的女排刘晏含级别待遇如何?刘晏含,中国女排现役最好的球员之一,个性开朗,多才多艺,刘晏含也被很多球迷亲切的称为大刘,2022年,因为种种的意外情况,本来要加盟排超联赛的刘晏含,在最后时刻向球迷汇报了情况,自世界羽联公布2022年赛季奖金榜单,安赛龙位居榜首,国羽8人进前十!1月2日,世界羽联公布了2022年球员收入榜单,安赛龙高居榜首,他以404125美元的收入遥遥领先,排名第二的是日本选手山口茜,她以268300美元收入成为女单第一,第三的是戴资颖逗妹吐槽阿森纳本赛季能拿100分!瓜帅奶枪手上瘾瓜迪奥拉如果阿森纳继续这样的表现,他们能拿100分我们追不上对阵切尔西的发布会上瓜帅谈到了阿森纳并表示对阵切尔西将是一场艰难的比赛,我们很期待接下来几周的比赛,我们必须拿分缩小与阿NBA最新积分榜詹眉休战湖人三连胜西部第12,活塞绝杀勇士北京时间1月5日,NBA常规赛继续进行,我们看看11点才开始的三场比赛结果,洛杉矶湖人主场112109复仇热火喜提三连胜,勇士主场119122被活塞绝杀,老鹰客场120117击败国墙倒万人推?李铁又被爆黑料,睡未成年女学生!他还有多少恶事?李铁在中国足球圈子里算是彻底的臭了名了。自打他被带走调查的那一刻起,便不断的有关于他的黑料爆出。比如手里一张银行卡的存款数就过亿。比如妻儿早已移民美国,在多地有着别墅豪宅。比如在任当天才遇到金钱的诱惑,他该如何选择?斯诺克台球运动,在天才丁俊晖成名之前,中国人接触的机会少的可怜。2005年,18岁的丁俊晖一路过关斩将,勇夺英锦赛冠军,一代台球神童横空出世,也就是那一年,从小酷爱打黑8的我,也深是金子总会发光!施罗德等待这一天太久了,终于以胜利证明自己!谁也没想到,缺少詹眉的湖人竟然出乎意料的击败全阵容热火,一直是湖人负面背景的施罗德竟然砍下32分,带领湖人取胜,仿佛又重新成为湖人三当家,施罗德也凭借这场胜利成功的为自己证明,洗刷CCTV5直播!全员健康广东再战浙江,王薪凯有望被重用,杜锋变阵不知不觉间,联赛第二十二轮比赛已经全部结束。在接下来的第二十三轮比赛中,全员健康广东将再战浙江。这场比赛,CCTV5全程直播。作为联赛里排名前二的球队,浙江与广东的对决,备受关注。
3年亏100亿,解散700员工!互联网公司每日优鲜倒下了!年入70亿7月27日,主打社区生鲜的每日优鲜,关闭极速达业务,第二天网上就流传着一条15分半的会议录音,约700位员工被通知结束工作,公司原地解散。一年收入超70亿的上市公司,说没就没了,网昨晚,微博崩了,回应来了来源微博客服8月2日晚间,微博网站和APP接连突然出现宕机,大量网友反映微博热搜榜内容已消失,界面提示加载失败,请重试。今日(3日)凌晨,微博崩了登上微博热搜。对此,微博客服回应8完美世界三步走推动元宇宙游戏实现上海博物馆推出海上博物数字藏品平台Meta元宇宙指北播报太长不看版完美世界三步走推动元宇宙游戏实现,已完成虚拟偶像及区块链相关的技术储备上海成立张江元宇宙创新发展联盟,张江元宇宙生态已涵盖2400家企业上海博物馆基于上博链推出海上博物数人工智能真的能帮助我们与动物对话吗?长期以来,理解动物发声一直是人类着迷和乐于研究的主题。例如,各种灵长类动物发出的警报因捕食者的不同而不同,海豚用标志性的口哨声互相交流,一些鸣禽也可以从彼此的叫声中提取元素并重新排特斯拉杭州车祸引发争议自动驾驶交通事故定责待明晰车撞了,司机却声称自己坐在副驾,问题在自动辅助驾驶系统。最近,杭州发生了这样一起车祸事故,引发了大众的关注和讨论。随着科技发展,越来越多的车辆出现了自动辅助驾驶自动泊车智能召唤等功很治愈的一段话,送给心累的你没用的东西再便宜也不要买不爱的人再寂寞也不要依赖刻意去找的东西往往是找不到的天下万物的来和去都有它的时间能接受你所有负面情绪的爱人才是你人生中的底牌不要总在过去的回忆里缠绵昨天的太夜读丨真正成熟的人遇急能静,遇怒能忍,遇烂能离,遇乱能稳文晚君听过一句话,遇事第一时间的反应,决定着这个人当前能够达到的高度。有的人,遇到一点事情就心神不宁,沉不住气但也有人,却能做到泰山崩于前而面不改色,在紧要关头,想出办法,解决困境七夕在朋友圈发的浪漫文案1你永远胜过别人,至少在我这里。2人间有风,有雨,有阳光还有一个不错的你。3最好的幸福是你给的在乎,最美的时光是有你的陪伴,与你皆是浪漫七夕节。4七待是你,夕望是你,欢喜是你,喜欢钱,是世界上最有灵性的东西!深刻金钱是世界上最有灵性的东西。你越了解它,它就离你越近。一hr道生一,一生生二,二生三,三生万物,大千世界源于道谁能把握住这个无形的道,谁就拥有了一切。世界上有两样东西最接近道的品质七夕将至,朋友圈最浪漫,最可爱的文案在这里1有幸被爱,无畏山海2钟情于你,忠诚于你,衷心于你,终止于你3晚霞与玫瑰共绘浪漫,你是我藏在心底的爱意与泛滥4斯人若彩虹,遇上方知有5保持公开,低调恋爱6想做你的小朋友,在你身后,七夕情人节文案与你相关,皆是浪漫1你是年少的欢喜,这句话反过来也是你。2好好生活,慢慢爱你,不早不晚,刚好是你。情人节快乐!3初次爱你,请多关照,情人节快乐!4始于心动,陷于温柔,有且仅有一个你。5星河灿烂,微光