专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

英伟达CUDA垄断地位难保PyTorch不断拆塔,OpenA

  詹士Alex发自凹非寺
  量子位公众号QbitAI
  英伟达的软件护城河正在逐渐消失。
  随着PyTorch支持更多GPU厂商,再加上OpenAI的Triton搅局,英伟达手中的利器CUDA逐渐锋芒不再。
  上述观点来自SemiAnalysis首席分析师DylanPatel,相关文章已引发一波业内关注。
  有网友看后评价:
  英伟达沦落到此种境地,只因为了眼前利益,放弃创新。
  Pytorch的作者之一SasankChilamkurthy还补刀:
  当英伟达之前提出要收购Arm时,我就对潜在的垄断感到非常不安。所以我开始做任何正常人都会做的事:让CUDA从的领先AI框架中被除名。
  下面展开谈一谈Patel提到的这些背后原因。PyTorch成AI开发框架赢家,将支持更多GPU
  这里先来简单说说CUDA昔日的辉煌故事。
  CUDA是英伟达推出的并行计算框架。
  CUDA之于英伟达,可谓历史的转折点,它的出现,让英伟达在AI芯片领域快速起飞。
  在CUDA之前,英伟达的GPU只是一个负责在屏幕上绘制图像的图形处理单元。
  而CUDA不仅可以调用GPU计算,还可以调用GPU硬件加速,让GPU拥有了解决复杂计算问题的能力,可以帮助客户为不同的任务对处理器进行编程。
  除了常见的PC机,无人车、机器人、超级计算机、VR头盔等多种热门的设备都有GPU;而在很长一段时间内,只有英伟达的GPU,才能快速处理各种复杂的AI任务。
  那么风光无限的CUDA,后来怎么就地位不稳了?
  这还得从AI开发框架之争聊起,尤其是PyTorchVSTensorFlow。
  如果把PyTorch这些框架比做车,那CUDA就是变速箱它可以加速机器学习框架的计算过程,当在英伟达GPU上运行PyTorch等时,可以更快地训练、运行深度学习模型。
  TensorFlow发育早,也是谷歌门下利器,但奈何近两年其势头逐渐被PyTorch超越。几大顶会上,PyTorch框架使用的比例也明显上涨:
  图源:TheGradient,几大顶会中专门提到PyTorch的论文占比
  还有TensorFlow深度使用者现身说法:现在我改用PyTorch了。
  PyTorch能胜出,一个关键因素在于它比TensorFlow更灵活易用。
  这一方面得益于PyTorch的eager模式,支持在C运行环境下修改模型,还可以立即看到每一步操作的结果。虽然TensorFlow现在也有eager模式,但大多数大型科技公司已经在围绕着PyTorch开发解决方案。(扎心了)
  另一方面,虽然用这二者都写Python,但用的PyTorch的舒适度更胜一筹。
  此外,PyTorch可用的模型更多,生态更丰富,据统计,在HuggingFace中,85的大模型都是用PyTorch框架实现的。
  过去,虽然各大AI开发框架之间打得火热,但更底层的并行计算架构CUDA可算独霸一方。
  但时过境迁,在AI框架的角逐中,PyTorch最终赢过此前领跑的TensorFlow,地位暂时稳了,然后就开始搞事情。
  近些年PyTorch在拓展支持更多GPU,即将发布的PyTorch2。0首个稳定版也会对其他各家GPU和加速器支持进行完善,包括AMD、英特尔、特斯拉、谷歌、亚马逊、微软、Meta等等。
  也就是说,英伟达GPU不再是那个唯一了
  不过这背后其实也还有CUDA自身的问题。内存墙是个问题
  前面提到,CUDA崛起与机器学习浪潮彼此促进,共赢生长,但有个现象值得关注:
  近些年,领头羊英伟达硬件的FLOPS不断提高,但其内存提升却十分有限。以2018年训练BERT的V100为例,作为最先进GPU,其在FLOPS上增长一个数量级,但内存增加并不多。
  图源:semianalysis
  在实际AI模型训练中,随着模型越来越大,内存需求也越来越大。
  比如百度和Meta,在部署生产推荐网络时,需要数十TB内存来存储海量的embeddingtable。
  放训练及推理中,大量时间实际上并未花在矩阵乘法计算上,而是在等待数据到达计算资源。
  那为什么不搞更多内存?
  简而言之,钞能力不足。
  一般来说,内存系统根据数据使用需求,遵照从又近又快到又慢又便宜的结构安排资源。通常,最近的共享内存池在同一块芯片上,一般由SRAM构成。
  在机器学习中,一些ASIC试图用一个巨大的SRAM来保存模型权重,这种方法遇到动辄100B的模型权重就不够了。毕竟,即便是价值约500万美元的晶圆级芯片,也只有40GB的SRAM空间。
  放英伟达的GPU上,内存就更小了:A100仅40MB,下一代的H100是50MB,要按量产产品价格算,对于一块芯片每GB的SRAM内存成本高达100美元。
  账还没算完。目前来说,片上SRAM成本并没随摩尔定律工艺提升而大幅降低,若采用台积电下一代3nm制程工艺,同样的1GB,反而成本更高。
  相比SRAM,DRAM倒是成本低很多,但延迟高一个数量级,且2012年来DRAM的成本也几乎没有明显压降。
  随着AI继续向前发展,对内存的需求,还会增加,内存墙问题就是这么诞生的。
  目前DRAM已占服务器总成本的50。比如英伟达2016年的P100,比起最新的H100,FB16性能提升46倍,但内存容量只增加了5倍。
  NVIDIAH100TensorCoreGPU
  另一个问题也与内存有关,即带宽。
  计算过程中,增加内存带宽是通过并行性获得的,为此,英伟达使用了HBM内存(HighBandwidthMemor),这是一种3D堆叠的DRAM层组成的结构,封装更贵,让经费朴实的使用者们只能干瞪眼。
  前面提到,PyTorch的一大优势在于:Eager模式让AI训练推理更灵活易用。但其内存带宽需求量也十分肥硕。
  算子融合,即解决上述问题的主要方法。其要义在于融合,不将每个中间计算结果写入内存,而是一次传递,计算多个函数,这样就将内存读写量变少。
  算子融合图源:horace。iobrrrintro。html
  要落地算子融合,要编写自定义CUDA内核,要用到C语言。
  这时CUDA的劣势就显现出来了:比起写Python脚本,编写CUDA之于很多人真是难太多了
  相比下,PyTorch2。0工具就能大幅降低这个门槛。其内置英伟达和外部库,无需专门学习CUDA,直接用PyTorch就能增加运算符,对炼丹师们来说,自然友好很多。
  当然,这也导致PyTorch在近些年大量增加运算符,一度超过2000个(手动狗头)。
  2022年末,刚发布的升级款PyTorch2。0更是大举发力,瞄准编译。
  因添加了一个面向图像执行模型的编译解决方案,该框架在A100上训练性能提升86,CPU推理性能也提升26。
  此外,PyTorch2。0依靠PrimTorch技术,将原来2000多个算子缩到250个,让更多非英伟达的后端更易于访问;还采用了TorchInductor技术,可为多个加速器和后端自动生成快速代码。
  而且PyTorch2。0还能更好支持数据并行、分片、管道并行和张量并行,让分布式训练更丝滑。
  正是上述技术,再结合对英伟达之外厂商GPU和加速器的支持,原先CUDA为英伟达构筑的软件城墙就显得没那么高不可攀了。
  身后还有替代者
  这边英伟达自身内存提升速度没跟上,那边还有PyTorch2。0搞事,但还没完
  OpenAI推出了个简化版CUDA:Triton。(直接偷家)
  Triton是种新的语言和编译器。它的操作难度比CUDA低,但性能却可与后者媲美。
  OpenAI声称:
  Triton只要25行代码,就能在FP16矩阵乘法shang上达到与cuBLAS相当的性能。
  OpenAI的研究人员已经使用Triton,生成了比同等Torch效率高出1倍的内核。
  虽然Triton目前只正式支持英伟达GPU,但之后这个架构也会支持多家硬件供应商。
  还有值得一提的是,Triton是开源的,比起闭源的CUDA,其他硬件加速器能直接集成到Triton中,大大减少了为新硬件建立AI编译器栈的时间。
  不过话说回来,也有人觉得CUDA的垄断地位还远不算被打破。比如PyTorch的另一位作者、Meta杰出工程师SoumithChintala就觉得:(分析师Patel写的)这篇文章夸大了现实,CUDA将继续是PyTorch依赖的关键架构。
  Triton并不是第一个(优化)编译器,目前大多数还是把注意力放在XLA编译器上面的。
  他表示,现在尚不清楚Triton是否会慢慢被大家接受,这还得靠时间来验证。总之,Triton并没有对CUDA构成太大威胁。
  文章作者Patel本人也看到了这条评论,然后回复称:我可没说(CUDA的垄断地位)已经没了(Broken),而是说正在退步(Breaking)。
  而且目前Triton还只正式支持英伟达GPU(没在别的GPU测试性能),如果XLA在英伟达GPU上的表现不占优势,那它恐怕不如Triton。
  但SoumithChintala反驳道,就算说CUDA的地位正在下滑也不妥。因为Triton要在硬件上推广的话,还有很多风险,还有很长的路要走。
  有网友和这位PyTorch作者站在同一边:
  我也希望垄断被打破,但目前CUDA还是最顶的,没了它,很多人构建的软件和系统根本玩不转。
  那么,你觉得现在CUDA境况如何?
  参考链接:
  〔1〕https:www。semianalysis。compnvidiaopenaitritonpytorch
  〔2〕https:analyticsindiamag。comhowisopenaistritondifferentfromnvidiacuda
  〔3〕https:pytorch。orgfeatures
  〔4〕https:news。ycombinator。comitem?id34398791
  〔5〕https:twitter。comsoumithchintalastatus1615371866503352321
  〔6〕https:twitter。comsasank51status1615065801639489539
  完
  量子位QbitAI头条号签约
  关注我们,第一时间获知前沿科技动态

TFBOYS王源和王俊凯,你更看好谁的发展呢?提到TFBOYS,目前发展最好的人可以说是千玺了。千玺在电影少年的你送你一朵小红花长津湖中都有不俗的表现,可能公认的发展最好的人肯定是千玺莫属了。但是对于小凯和王源你更看好谁的发展王者荣耀五级铭文如何搭配?这个问题就太广泛了,或许你应该问什么英雄铭文怎么配,或者哪个位置的铭文怎么配。既然你问的这么广泛,那我就详细的回答一波咯。法师够详细吧。战士绿色鹰眼红色异变蓝色隐匿百穿铭文几乎所有4400万联盟第三,4。4失误联盟第二!威少是下滑了还是高估了?不是下滑,本身能力就不行!简单的说威少不适合湖人的体系,湖人这里需要配合詹姆斯打球也(浓眉付出威少还得配合浓眉),而在其它球队是别人配合威少打球!巨星陨落都是在于自己状态下滑后无法男人能穿打底裤吗?这要看你对打底裤怎么理解了!同时也要看在什么情况下穿了!如果说,男人的打底裤就是内裤的话,不仅能穿,还要每天都穿!因为这是男人最基本的一道防线!虽然说男人一生不羁爱自由,但是也不能中年人是不是都在低欲望的活着?我今年快52岁了,仍然属于中年人,面对工作和生活上的压力,觉得从40岁开始,我就是在低欲望活着。一吃不下去了年轻时候,捞面条我一顿能喋两大碗,去外地施工,累了一天回到酒店,红烧猪肘MIUI9上线拍照新功能,你的手机支持吗?题主你好,MIUI官方在2017年11月13日,对外推送了NIUI9开发版(7。10。13),针对小米手机相机增加了魔法消除功能,该功能使拍照变得更傻瓜。大家在用手机拍照的时候,特私家车在很多二线城市很普遍,为什么上海很多家庭没有私家车呢?其一,上海是人人趋之若鹜的一线城市,寸土寸金,居住房子面积都不大,很多小区都没有地下车库,路面停车位也很紧张,买了停车是个问题其二,上海的公共交通非常发达,出行搭乘地铁,公交,的士二手车尽量别买。有谁被坑过。能和大家分享一下吗?你怎么被坑的谁知道呢,买二手车首先应该了解车的好些。比如开了多年车的老司机,要是开过大型车的司机,都多多少少懂点车的。自己不会不懂最好找懂行的亲友帮忙把把关。二手车肯定是有点年限或私家车开了15年,现在是花560元一年两审好,还是换辆新车好?我是真的希望这个规定能改改。我今年45岁,爱车开了十年,跑了八万公里,每年定期保养两次,五万公里的时候做了一次大保养,总得来说各种性能都不错。估计我到了50岁,车子也就开个十几万公有哪些口红被称为斩男色?女人涂上能够斩获男士爱的口红被称作斩男色。斩男色没有具体归为哪一色系,所以以下介绍的是大众普遍认可的斩男色。ysl12斩男色的开山鼻祖。唇釉和圆管颜色都是一样的。质地很水润,遮盖力你老家的名称叫什么?有由来吗?我们的村名现在叫清美。元末明初有江夏黄氏迁到这里。当时这里是个旧澳头,前面及东面是内海。如今东南面仍分别称后洋洋的洋尾地名。地壳的不断上升现在只剩下一条溪流。江夏黄氏初来时,澳头边
成龙再爆有私生子房祖轩,孩子妈是邓丽君,网友分析是假新闻成龙与邓丽君有私生子?已相认还奖励对方数十亿,刘嘉玲说完成嘱托引言。本文主笔安宁成龙真是活到一定年纪,什么都能看到,比如,港媒那边突然传出新闻说,成龙又有了一个私生子,而且还是他跟赵本山与宋丹丹,有何积怨与隔阂?长达14年不相往来赵本山与宋丹丹,可以说是,两位著名的笑星,是中国小品界最搞笑搭配,一起合作了很多经典小品,长期承包了中央电视台春节联欢晚会最多笑点,让人们喜闻乐见充满回味。赵本山与宋丹丹表演可是,霸道总裁张翰的嚣张跋扈史原来有钱真的可以为所欲为2007年,还没有成名张翰就先上了央视新闻,不过可不是因为做了什么好事,而是因为违规驾驶拖行交警并且还肇事逃逸。遭警方逮捕的张翰不仅没有主动认罪,还一直狡辩称是交警的问题,最过分的她23岁和刘德华ampampquot结婚ampampquot,36岁嫁给转世灵童,如今成阔太住千万豪宅一九七八年,一个女婴在台湾台北市的一家医院出生了。在老来得女的家庭,她一直就像掌上明珠一样生活了二十几年。但自从她长大后,每当别人问起她的父亲她都会下意识地回避,靠着这种神秘感,她李易峰粉丝狂言宁愿被嫖的是自己为什么要严禁性交易李易峰嫖娼的新闻出来之后,一些狂热粉丝的评论令人震惊。有些人宁愿自己被嫖的言论震碎了我的三观。以上图片来自微博截图同时社会上还有一种刺耳的声音,一直有人呼吁性交易合法化。他们叫嚣外陈亚男要结婚了?主动晒出婚纱照表白未婚夫,网友是榜一大哥吗一段感情,特别是一段失败的感情是最能让人快速成长起来的,或许有的人会质疑这段话,但是其实只要你看一下朱小伟的成长变化,就知道这句话是真是假了。和陈亚男离婚之后的朱小伟,仿佛打开了任一度电一粒米一个零件人工智能场景创新能力不断提升来源人民网原创稿发现问题到报警,从几小时缩短到了20秒。电力巡检是守护万家灯火的重要保障,以往,依靠人工巡检存在工作量大劳动强度高效率较低等难题。在山东淄博,基于飞桨产业级深度学习教育的最高境界是唤醒孩子学习的内驱力,方法简单且实用1。给孩子学习充分的自主权。2。先让孩子体验到学习的成就感。3。帮助孩子建立学习的内在目标。我有个外甥女,家里条件很不错,父母跟她的关系也很好,孩子懂事,听话,但就有一个问题,就是孩子口臭到底是哪里出了问题?千万别大意,可能存在健康问题最近,听宝妈说,她最近感到非常的担忧,它的孩子刚上幼儿园时,她还非常害怕孩子不能很好地适应幼儿园的生活,谁知她的孩子适应能力很强。在幼儿园里已经学到了很多有趣实用的知识,也交了很多秋日私语经过了夏日的酷热,秋天终于来了,这个节日对于农民来说最值得庆祝,辛苦的劳作迎来了回报。春天的孕育,夏天的忙碌,秋天的收获,冬天的储备。人活一世,无论你做什么,目的都是收获。工人也好海滩上的少女在落日的海滩上,海浪轻轻地拍击着海岸,宽大的枝叶在海风中飘扬,一位穿着闪亮的裙子的少女站在海岸边。她的倩影在晚霞中显得非常美,婀娜多姿,那大大的眼睛像天上的群星一样闪烁着柔和的光芒
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网