范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

2023炼丹GPU选购指南来了英伟达3080和4070Ti成性价比之王

  Alex 发自 凹非寺
  量子位 | 公众号 QbitAI
  春暖花开,各位深度学习er想不想给自己的"丹炉"升级一波?
  "炼丹"爱好者们应该知道,在该领域中,**GPU的总体表现完胜CPU。
  那么GPU应该怎么选?不妨来看看这篇超级详尽的"2023版GPU选购指南" 。
  知名测评博主、华盛顿大学在读博士Tim Dettmers亲测后,写下万字长文,手把手教你Pick性价比最高的显卡 ,避免踩雷。
  △光是目录就有这么长……
  至于谁是性价比之王,不卖关子,这里先放上Tim哥的结论:
  对于16位训练过程, RTX 3080 的性价比最高;对于8位和16位推理,RTX 4070Ti 的性价比最高。
  有意思的是,不只这俩,他在本文推荐的显卡全是英伟达家的 ——Tim哥觉得,对于深度学习,"AMD GPU+ROCm"目前还打不过"NVIDIA GPU+CUDA"。
  手把手教你挑GPU
  Tim哥自制了一张表格,展示出在训练和推理过程中,一美元能买到多少算力;这在一定程度上体现了英伟达众显卡的性价比。
  △ 蓝色-16位训练;红色-16位推理;黄色-8位推理
  看到这个,你可能一脸问号:从表格来看,不是RTX 4080在8位和16位推理上的性价比更高吗?
  其实,咱们开头说的是"综合性价比"——
  除了看一美元能买多少算力,还要结合显卡的运行成本,比如电费。所以总的来说,还是RTX 4070Ti的性价比更高。
  虽然RTX3080和RTX 4070 Ti性价比高,但这俩的内存是个明显短板 :
  Tim哥指出,12GB在很多情况下都不够用,要运行Transformer模型的话,至少需要24GB。
  于是,Tim哥又贴心地做了一个小程序,帮你根据不同的任务选择最合适的GPU。
  其背后的核心思想是:不管干啥,一定要保证GPU的内存满足你的需求。
  首先,要弄清楚这个GPU是个人用还是公用,还有就是要处理什么任务——比如,是要训练语言大模型(LLM) 吗、参数量有没有超过130亿?还是就做点小项目?
  然后再根据自己的钱包情况,参考上面的表格,选择最合适的GPU。
  举个例子:
  如果要训练LLM且参数量超过130亿,不差钱的可以选择支持Azure公有云的A100或者H100;追求性价比的话,可以选支持AWS的A100或者H100。
  但如果预算实在有限,建议放弃……
  (在亚马逊上,40GB的英伟达Tesla A100售价为11769美元起,约合人民币79529元。当然这都是针对国外的情况,在国内炼丹仅供参考)
  另外,Tim哥还支了一招:最好用云GPU(比如Lambda云) 来估测一下所需的GPU内存(至少12GB用于图像生成,至少24GB用于处理Transformer) 。
  其实假如GPU仅偶尔使用(每隔几天用几小时) ,甚至都不用去买个实体的,用云GPU就可以了。
  对了~如果你真的不在乎这点(?) 钱,就要追求极致性能,那可以看看这张表,即GPU的原始性能排行。
  那如果实在钱不够,即使是Tim哥推荐的最便宜的GPU也买不起,还有办法吗?
  那可以考虑二手呀!
  先去买个便宜的GPU用于原型设计和测试,然后在云端进行全面的实验和测试。关键性能点有哪些?
  盘点完英伟达的一堆GPU后,再来叙一叙关乎深度学习速度的几大GPU性能关键点。
  (如果你想稍微深入了解一些,请接着往下看。)
  Tim哥指出,重点有四:GPU的内存、核心、Tensor Core和缓存 。
  而其中最重要的是Tensor Core 。
  Tensor Core是英伟达为其高端GPU开发的一项技术,本质上,就是加速矩阵乘法的处理单元 。其中Tensor即张量,是一种能表示所有类型数据的数据类型。
  Tim表示,在所有深度神经网络中,最昂贵的部分是矩阵乘法,而有了Tensor Core,运算速度会变得非常快,有助于大大减少成本。
  就拿一个入门级的32×32矩阵乘法来说,通过Tensor Core,将矩阵乘法的运算时间从504个周期,降低到235个周期,直接减半。
  而且即便是超大规模的矩阵运算,Tensor Core也能轻松处理。在规模堪比GPT-3的训练中,Tensor Core的TFLOPS利用率也就约为45-65%。
  而当两个GPU都有Tensor Cores时,要比较它们性能,最佳指标之一就是内存带宽 。
  例如,A100 GPU的内存带宽为1555GB/s,而V100为900GB/s。因此,A100和V100相比,运算速度大概是后者的1555/900=1.73倍。
  由此可见,内存带宽会影响到Tensor Core的性能发挥。于是研究人员开始寻找其他GPU属性,使内存数据传输到Tensor Core的速度更快。
  然后,他们发现,GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量 也都是相关因素。
  对于缓存来说,数据块越小,计算速度越快;所以需要把大的矩阵乘法,划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为"内存碎片"*(memory tiles)。
  一部分"碎片"被加载到Tensor Core中,由寄存器直接寻址。
  根据英伟达Ampere架构的规则,举个例子~
  把每一个权重矩阵都切成4个"碎片",并假设其中两个为零——于是就得到了一堆稀疏权重矩阵。
  然后把这些稀疏权重矩阵与一些密集输入相乘,Tensor Core功能启动,将稀疏矩阵压缩为密集表示,其大小为下图所示的一半。
  在压缩之后,密集压缩的"碎片"被送入Tensor Core,计算的矩阵乘法是一般大小的两倍。这样,运算速度就成了通常的2倍。
  Tim哥表示,上述性能点,他在统计英伟达GPU性能时都考虑在内了。
  如果你把这些东西吃透了话,以后就能完全靠自己 配置出最合适的"炼丹炉"了。
  原文传送门:
  https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/
  — 完 —
  量子位 QbitAI · 头条号签约
  关注我们,第一时间获知前沿科技动态

北京取暖费是如何计算的?说起首都北京大多数人都应该知道北京的冬天还是比较冷的。所以,北京居民冬天都会取暖。那么你知道北京取暖费是如何计算的吗?假如遇到暖气不热,又该如何操作进行放气呢?下面跟随金旗舰旗哥一亲人去世重孝在身这期间有什么禁忌呢?百善孝为先,父母在世的时候,尽孝,尽到所能,父母去了,有孝何用啊,都现实点吧,生前一碗水,胜过万堆灰祈祷祈祷亲人去世,重孝在身,三年不贴春联,不放炮,三年不出门拜年(家是农村的,初我想给女儿陪嫁一套房,如何确保房子永远属于她一个人的财产?婚前,就给女儿买一套房,写上女儿的名字。声明,这是女儿的婚前房产与女婿无关。那么问题来了?你说陪嫁一套房,要永远是属于你女儿的个人财产。陪嫁房,也就是你陪嫁给你女儿的。说明,你的女比亚迪的DMI真的这么牛吗,真的可以脚踹两田吗?作为秦55旗舰车主,如果你是北方人,不建议购买。开了一个月了,2600公里,两市间通勤,单程70公里,每天140公里左右,城市国道快速路混合,均速5060左右。先说油耗,吹的太过了买车一年后,工作变动。车基本停在那里,一年开很少,就过年开的多,是否要卖掉车呢?汽车使用频率太低可以考虑长租,长时间停放一定会损伤车辆,但是车辆太短卖车也是很不划算的。汽车保值率不分车系品牌有一条大致曲线,前三年是亏损最严重的时期。第一年落地基本打8折,且评估二胎妈妈,35岁,年薪70万,家庭工作平衡太难,要不要辞职?不要辞职,一个人这辈子最好的人生是可以做最好的自己,而不仅仅是个称职的妈妈,一个奋斗的妈妈本身就是孩子最好的榜样。年薪七十万家庭琐碎的事情可以花钱雇人解决,生活杂事可以请个保姆,学助听器有的好贵,有必要买那么贵的吗?这就跟音响似的。你可以买二十块钱的耳机,也能听个声。也可以买2万的耳机。有和没有之间是巨大的差异,但是好和更好之间的差异就只能看个人的要求了。选配助听器主要还是看自身的需求,几百的人为什么会晒黑?晒黑,是一种自然现象。那么,人为什么会晒黑?晒黑了,怎么变白?人为什么会晒黑?当热辐射或太阳光照射皮肤时,激发并活化了位于基底层内的黑色素细胞,它们以101的比例存在于基底细胞内,你听过最可怕的情杀案有多恐怖?我家屋后邻居。前年的事,邻居周某娶了个性格外向的花蝴蝶似的老婆,有两个孩子,经常因为他老婆跟情人约会的事情打架,有一次他找到他老婆其中一个情人,要他放手,不要再跟他老婆来往,因为那彩民中几百上千万大奖,彩票店为何这么高兴,还要挂横幅庆祝?首先彩票店老板有提成,而且还有奖金那不挺好?彩票店的收入主要靠店门销售,佣金提成按照销量的7拿佣金,也就是说店面销量越高,业绩越高收入就越高。听说好像中了一个1,000万大奖,能提95号汽油贵但却比92号汽油耐烧且油耗低,事实是这样吗?壹车热评,100原创,谢绝搬运!壹车热评觉得,只要我们还在使用燃油车,关于92号汽油和95号汽油之间的争论,就无法得以平息。那么我们开车到底是使用92号汽油划算呢?还是95号汽油更
航天育种实验如何开展?上天入地的太空种子这样炼成23日,中国载人航天工程办公室一则公开征集航天育种实验搭载项目的消息引发关注。到底什么是航天育种?目前已经有多少种子开展过太空之旅?如何才能成为一颗合格的太空种子?有哪些作物种子上为啥越来越多人不装油烟机?现在流行这么做,美观实用省空间厨房是我们平时制作美食的地方,也是最具有人间烟火气的地方。为了能够制作美食的同时,还不想让家里全都是油污,我们一般都会在厨房安装一个油烟机。做饭的时候打开油烟机,可以减少厨房内的油帐篷太多樱花树不够用?老牌网红辰山植物园这样化解樱花盛放只有7天,错过就要再等一年。这周末,染井吉野等樱花品种进入最佳观赏期,各大公园市民游客拍照搭帐篷的热情有增无减,有的公园出现了樱花树被霸占,帐篷太多等现象,成为春游中的遗憾游戏里的中国传统文化与游戏双向赋能,打开更多想象空间在数字时代,如何为国产游戏注入更多文化内涵?3月24日下午,由广州市游戏行业协会承办的第六届文创产业大会天河峰会分论坛游戏里的中国数字时代的文化突围主题论坛举行。来自学界的专家业内最高补贴1亿元青岛出台政策扶持邮轮旅游高质量发展3月27日,作为2023山东旅游发展大会重要活动之一的山东邮轮旅游发展论坛在青岛举行,记者从论坛上了解到,青岛市出台新一轮邮轮旅游高质量发展扶持政策,推动邮轮旅游加快复苏提质增效。云南曲靖强链补链培育千亿元级产业经济日报昆明3月26日讯(记者曹松)不久前,在云南曲靖市沾益工业园区,曲靖德方创界新能源科技有限公司年产6000吨正极补锂剂项目正式投产,预计年产值70多亿元。曲靖是云南的老工业基湖南培育国家级绿色工厂136家湖南日报3月27日讯(全媒体记者谢卓芳)近日,工业和信息化部公布2022年度绿色制造名单,湖南获批国家级绿色工厂36家国家级绿色园区3家国家级绿色产品39个绿色供应链管理示范企业8马化腾成ampampquot大赢家ampampquot?京东千亿股份美团1500亿股份,被腾讯先后清空在阅读此文前,诚邀您点击一下关注,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。文远山编辑多鱼在很多人的印象中,腾讯都是一家巨无霸的互联网巨头企业。与此同时,这家普通人搞钱的机会!2023最值得加盟的100个餐饮品牌,请查收创业邦(IDichuangyebang)原创作者丨王艺编辑丨海腰制图丨创业邦在中国的语境下,创业通常是在科技行业,比如开发一款App,制作一款小程序等。但在美国的语境下,创业通常是周鸿祎360将基于搜索场景推出AI个人助理类产品360集团创始人周鸿祎。澎湃新闻记者秦盛图人工智能的终极目标应该是人机协作,是人跟机器智能的融合,在ChatGPT全面的知识面和推理能力基础之上,保留一些人的特殊能力,比如想象力创饶河口岸结束冬季货运期摄影王克勤3月25日,随着最后一辆俄罗斯货车从饶河口岸出境,饶河口岸2022年2023年冬季货物运输结束。据悉,饶河口岸自1月11日开关到3月25日闭关历时74天,累计进出口货物4