2023炼丹GPU选购指南来了英伟达3080和4070Ti成
Alex发自凹非寺
量子位公众号QbitAI
春暖花开,各位深度学习er想不想给自己的丹炉升级一波?
炼丹爱好者们应该知道,在该领域中,GPU的总体表现完胜CPU。
那么GPU应该怎么选?不妨来看看这篇超级详尽的2023版GPU选购指南。
知名测评博主、华盛顿大学在读博士TimDettmers亲测后,写下万字长文,手把手教你Pick性价比最高的显卡,避免踩雷。
光是目录就有这么长
至于谁是性价比之王,不卖关子,这里先放上Tim哥的结论:
对于16位训练过程,RTX3080的性价比最高;对于8位和16位推理,RTX4070Ti的性价比最高。
有意思的是,不只这俩,他在本文推荐的显卡全是英伟达家的Tim哥觉得,对于深度学习,AMDGPUROCm目前还打不过NVIDIAGPUCUDA。
手把手教你挑GPU
Tim哥自制了一张表格,展示出在训练和推理过程中,一美元能买到多少算力;这在一定程度上体现了英伟达众显卡的性价比。
蓝色16位训练;红色16位推理;黄色8位推理
看到这个,你可能一脸问号:从表格来看,不是RTX4080在8位和16位推理上的性价比更高吗?
其实,咱们开头说的是综合性价比
除了看一美元能买多少算力,还要结合显卡的运行成本,比如电费。所以总的来说,还是RTX4070Ti的性价比更高。
虽然RTX3080和RTX4070Ti性价比高,但这俩的内存是个明显短板:
Tim哥指出,12GB在很多情况下都不够用,要运行Transformer模型的话,至少需要24GB。
于是,Tim哥又贴心地做了一个小程序,帮你根据不同的任务选择最合适的GPU。
其背后的核心思想是:不管干啥,一定要保证GPU的内存满足你的需求。
首先,要弄清楚这个GPU是个人用还是公用,还有就是要处理什么任务比如,是要训练语言大模型(LLM)吗、参数量有没有超过130亿?还是就做点小项目?
然后再根据自己的钱包情况,参考上面的表格,选择最合适的GPU。
举个例子:
如果要训练LLM且参数量超过130亿,不差钱的可以选择支持Azure公有云的A100或者H100;追求性价比的话,可以选支持AWS的A100或者H100。
但如果预算实在有限,建议放弃
(在亚马逊上,40GB的英伟达TeslaA100售价为11769美元起,约合人民币79529元。当然这都是针对国外的情况,在国内炼丹仅供参考)
另外,Tim哥还支了一招:最好用云GPU(比如Lambda云)来估测一下所需的GPU内存(至少12GB用于图像生成,至少24GB用于处理Transformer)。
其实假如GPU仅偶尔使用(每隔几天用几小时),甚至都不用去买个实体的,用云GPU就可以了。
对了如果你真的不在乎这点(?)钱,就要追求极致性能,那可以看看这张表,即GPU的原始性能排行。
那如果实在钱不够,即使是Tim哥推荐的最便宜的GPU也买不起,还有办法吗?
那可以考虑二手呀!
先去买个便宜的GPU用于原型设计和测试,然后在云端进行全面的实验和测试。关键性能点有哪些?
盘点完英伟达的一堆GPU后,再来叙一叙关乎深度学习速度的几大GPU性能关键点。
(如果你想稍微深入了解一些,请接着往下看。)
Tim哥指出,重点有四:GPU的内存、核心、TensorCore和缓存。
而其中最重要的是TensorCore。
TensorCore是英伟达为其高端GPU开发的一项技术,本质上,就是加速矩阵乘法的处理单元。其中Tensor即张量,是一种能表示所有类型数据的数据类型。
Tim表示,在所有深度神经网络中,最昂贵的部分是矩阵乘法,而有了TensorCore,运算速度会变得非常快,有助于大大减少成本。
就拿一个入门级的3232矩阵乘法来说,通过TensorCore,将矩阵乘法的运算时间从504个周期,降低到235个周期,直接减半。
而且即便是超大规模的矩阵运算,TensorCore也能轻松处理。在规模堪比GPT3的训练中,TensorCore的TFLOPS利用率也就约为4565。
而当两个GPU都有TensorCores时,要比较它们性能,最佳指标之一就是内存带宽。
例如,A100GPU的内存带宽为1555GBs,而V100为900GBs。因此,A100和V100相比,运算速度大概是后者的15559001。73倍。
由此可见,内存带宽会影响到TensorCore的性能发挥。于是研究人员开始寻找其他GPU属性,使内存数据传输到TensorCore的速度更快。
然后,他们发现,GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量也都是相关因素。
对于缓存来说,数据块越小,计算速度越快;所以需要把大的矩阵乘法,划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为内存碎片(memorytiles)。
一部分碎片被加载到TensorCore中,由寄存器直接寻址。
根据英伟达Ampere架构的规则,举个例子
把每一个权重矩阵都切成4个碎片,并假设其中两个为零于是就得到了一堆稀疏权重矩阵。
然后把这些稀疏权重矩阵与一些密集输入相乘,TensorCore功能启动,将稀疏矩阵压缩为密集表示,其大小为下图所示的一半。
在压缩之后,密集压缩的碎片被送入TensorCore,计算的矩阵乘法是一般大小的两倍。这样,运算速度就成了通常的2倍。
Tim哥表示,上述性能点,他在统计英伟达GPU性能时都考虑在内了。
如果你把这些东西吃透了话,以后就能完全靠自己配置出最合适的炼丹炉了。
原文传送门:
https:timdettmers。com20230130whichgpufordeeplearning
完
量子位QbitAI头条号签约
关注我们,第一时间获知前沿科技动态
欧文296,杜兰特伤退174,赵四1311,篮网102101险胜热火!北京时间1月9日700NBA常规赛篮网队客场挑战热火队,其首发阵容为欧文西蒙斯小奥尼尔杜兰特克拉克斯顿热火队首发为洛瑞希罗巴特勒海史密斯阿德巴约。双方第一节开打,克拉克斯顿篮下补篮
很多农村父辈,最后都变成了一座坟大家好,我是点点家学,事事皆学问点点有门道,望共同进步。昨晚文章,大多天才都住不上最好的房子,探讨的是人们仰慕天才崇拜少数,但最后走不出别人的路,还忘了属于自己的路。今天,刚好在老
股市和人民币,2023要大反转了?这是第4892篇原创首发文章字数4kIreneZhou文关注秦朔朋友圈IDqspyq2015新年伊始,随着中国多地发布新冠感染乙类乙管实施方案,国际资金做多中国的情绪逐渐升温,人民
开门红!人民币暴涨1000点!空头已经彻底死亡财经新势力新春季新年第一周,虽然只有4个交易,离岸人民币汇率却迎来暴涨,涨幅正好高达1000个基点,收盘在了6。82。这意味着,人民币的本轮反弹创新高,从底部的起来的幅度已经高达8
那些生活中你无能为力的问题有一天,一个人来到庙里见佛陀,他听说佛陀是一位非常有智慧的神僧。和所有人一样,这个人在生活中遇到了一些问题,他认为佛陀可以帮助他解决这些问题。他告诉佛陀说我是个农民,我喜欢种田,但
张口就要钱,泽连斯基入戏太深,美议员满脸嫌弃他连衣服都不换誓言战斗到底,命令乌军死守前线,泽连斯基霸气表态,却遭来美议员嫌弃,当真是拿人手软。(泽连斯基风光访美)美议员表面,对泽连斯基感到恼火参考消息称,乌克兰总统泽连斯基此前风光访美,看
40英寸电视进入百元级,电视机为啥越来越便宜?前不久举办的卡塔尔世界杯赛事,使高清大屏彩色电视机迎来一波消费热潮。不少人发现,曾是家庭大件的电视机,如今在性能尺寸不断提升的同时,价格却一路走低,市场上出现了许多大品牌的百元级电
张家川公路段工会走访慰问退休职工新天水讯通讯员王小强李世平新春将至,为了让退休职工过一个祥和温暖的春节,连日来,张家川公路段开展了走访慰问活动,向高龄退休老职工送去组织的关怀和新春的问候。该段班子成员在退休职工家
突然火了!围炉煮茶风口下,热销如何变长销?作者丨叶碧华万梦琰编辑丨林曦近期,围炉煮茶频繁出现在各大电商和社交平台,成为继露营之后的又一波新消费热潮。众多商家纷纷推出贴合该消费场景的产品,但最终如何将场景产品打造成长销产品乃
二三四五涨停,深股通净卖出2431。16万元二三四五今日涨停,全天换手率12。18,成交额16。93亿元,振幅6。78。龙虎榜数据显示,深股通净卖出2431。16万元,营业部席位合计净买入4275。74万元。深交所公开信息显
百元股数量达166只,一日增加6只以最新收盘价计算,A股平均股价为11。13元,其中两市股价超过100元的有166只,相比上一个交易日增加6只。百元股作为判定市场热度的信号之一,历来受到投资者关注。证券时报数据宝统
那些发生在我们身边的灰色强奸灰色强奸这个词对大多数人来说可能比较陌生,但灰色强奸的事我们应该并不陌生。无论大学还是职场,这种事都非常多。我们总能听说大学教师猥亵强奸女学生,公司领导经常利用加班事由骚扰女下属。
市场主体十年净增超1亿户本报北京10月10日电(记者孔德晨)记者10日从国家市场监督管理总局获悉,十年来,中国市场主体总量实现历史性突破。截至今年8月底,登记在册市场主体达1。63亿户,相比2012年底的
杨定一博士24封长信让你修心,不再无事生非有人说,修行要修出三心一是平常心,二是包容心,三是感恩的心。你知道吗?每时每刻的你都在修行,只是你不自知。在杨定一博士无事生非这本书中里,作者告诉我们无论你在谈话做事开会休息睡觉吃
时代之殇,8090后的未来之路?历史不能假设,只能回顾,因为没人可以改变历史。我们能做的,唯有总结经验,以便给我们的未来指明方向。每个人都在时代之中,每个人也都有自己的时代之问,每个人都在自己的岗位上努力付出,但
推荐3个超好用的pdf翻译软件分享三个超好用的pdf翻译软件,可以翻译一整个文档,简单好用还方便,快收藏起来,下次有需要的时候就能用得上!一Google翻译谷歌相信大家一定不会陌生吧!不愧是大厂产品,支持近百种
重见老味道汽水来源中国经济网经济日报小暑节气过后,湖北武汉骄阳似火。但炎热的天气挡不住游客的热情,武汉历史文化街区黎黄陂路,迎来了一批批来自全国各地的游客。北京游客黄勇就专程来此感受老武汉的生活
地理信息技术都能干什么?济南城区四维地质环境可视化信息系统平台建设项目荣获中国地理信息产业优秀工程奖金奖。作为全国首个拥有完全自主知识产权的四维地质平台,该项目综合应用数据库技术三维地质建模与可视化技术等
折叠屏手机缺缺缺,5000元时代还早着图源东方IC对大多数求职招聘者来说,每年的九月十月,素有金九银十之称,说的是这两个月是求职招聘的黄金季节,对于国内手机厂商来说,金九银十同样存在。每年9月是苹果举行秋季发布会的日子
iPhone14车祸检测新bug,坐过山车会报警据报道,苹果公司最新的车祸检测功能虽然可以在关键时刻救人一命,但如果用户带着支持这项功能的设备去坐过山车,它也有可能会被错误触发。这项功能支持最新款iPhone14和AppleWa
浅谈币安垮链桥被黑客攻击盗取1亿美金BNB资产事件这两天有一条震惊币圈的币安跨链桥资产被盗的新闻,这不是有关币安链被黑客盗取资产的第一起事件了,之前也发生过。我们先来普及一下什么是跨链桥?区块链跨链桥,连接两个区块链,允许用户通过
这款iPhone即将彻底停产和维修支持丨iPhoneSE4拥有全面屏iPhone5C将彻底消失据苹果最新通知表示,iPhone5C将会在下个月加入停产列表,这代表苹果将彻底结束对iPhone5C的零部件生产维修等服务,仅提供有库存部件的维修。iPh