范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

CUDA编程模型都改了!英伟达架构师团队详解Hopper为啥这么牛?

  编辑:LRS  【新智元导读】最近老黄掏出的显卡核弹Hopper H100可谓是风头无两,性能全面碾压老前辈。但除了800亿晶体管,Hopper架构也是完全重新设计的,一起看看架构里面还有啥细节?
  在英伟达GTC 2022大会上,老黄更新了服役近两年的安培微架构(Ampere),推出Hopper架构,并抛出一块专为超算设计、包含800亿个晶体管的显卡Hopper H100,比老前辈A100显卡的540亿晶体管还要高出不少。
  但光看名字和参数还不够,Hopper到底牛在哪?
  最近英伟达的架构开发师们发布了一篇博客,深入讲解和分析了Hopper架构。文章作者包括英伟达首席GPU架构师Michael Andersch,GPU架构组杰出工程师Greg Palmer和Ronny Krashinsky,英伟达高级技术营销总监Nick Stam,高级开发技术工程师Vishal Mehta等核心开发成员。
  Hopper牛在哪?
  Hopper架构的名字来自Grace Hopper女士,她被誉为计算机软件工程第一夫人、编译语言COBOL之母,她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者,也是第一位发现「bug」的人。
  基于Hopper架构的英伟达Hopper H100张量核心GPU已经是第九代数据中心GPU了,相比上一代安培架构的A100 GPU,Hopper架构明显强悍了很多,不仅晶体管数量有明显提升,制作工艺也从7纳米提升到4纳米,为大规模AI和HPC提供了一个数量级的性能飞跃。
  同时H100继承了A100的主要设计重点,提升了对AI和HPC工作负载的扩展能力,并在架构效率方面进行了大幅改进。
  对于当今的主流人工智能和高性能计算模型,带有InfiniBand互连的H100可提供比A100强30倍的性能。
  并且新的NVLink Switch System在针对一些大型计算工作负载任务,比如需要在多个GPU加速节点上进行模型并行化时,能够通过互联调整负载,可以再次提高性能。在某些情况下,性能能够在使用InfiniBand的H100基础上再增加两倍。
  可以说H100 GPU专为高性能计算和超大规模AI模型加速而生,AI模型的推理速度少说也能提升10倍。
  Hopper芯片利用了Arm架构的灵活性,是一个完全重新设计、专为加速计算而设计的CPU和服务器架构。H100能够与英伟达Grace CPU搭配,借助超快英伟达chip-to-chip互联,可以提供高达900GB/s的总带宽,比PCIe Gen5还要快7倍。
  在TB级数据的高性能计算下,和世界上最快的服务器相比,新设计能够提升10倍性能和30倍的总带宽。
  开发人员总结了一个长长的H100 GPU关键新特性列表。
  首先H100有一个新的流式多处理器(SM, streaming multiprocessor),性能和效率都有所提升。
  新的第四代张量核心与A100相比,chip-to-chip的性能提升6倍,速度提升主要来自更快的SM,更多的SM数量,以及H100中更高的时钟频率。在每个SM上,与上一代16位浮点选项相比,Tensor Cores在同等数据类型上的MMA(矩阵乘积)计算速率是A100 SM的2倍,使用新的FP8数据类型的速率是A100的4倍。稀疏性1功能利用了深度学习网络中的细粒度结构化稀疏性,使标准张量核心操作的性能提高了一倍。
  新的DPX指令对动态编程算法的加速比A100 GPU高7倍。在基因组学处理的Smith-Waterman算法,以及用于在动态仓库环境中为机器人车队寻找最佳路线的Floyd-Warshall算法上验证后,证实了性能提升。
  与A100相比,IEEE FP64和FP32的处理率在芯片间快了3倍,这是由于每个SM的clock-for-clock性能快了2倍,加上H100的额外SM数量和更高的时钟。
  新的线程块集群功能能够以大于单个SM上的单个线程块的颗粒度对位置性进行编程控制。扩展了CUDA编程模型,为编程层次增加了一个层次,现在包括线程、线程块、线程块集群和网格。集群使多个线程块可以在多个SM上并发运行,以同步和协作方式获取和交换数据。
  分布式共享内存允许在多个SM共享内存块上进行SM到SM的直接通信,用于加载、存储和原子学。
  新的异步执行功能包括一个新的张量内存加速器(TMA)单元,可以在全局内存和共享内存之间有效地传输大型数据块。TMA还支持集群中线程块之间的异步拷贝。还有一个新的异步事务屏障,用于做原子数据移动和同步。
  新的Transformer引擎采用了软件和定制的英伟达Hopper Tensor Core技术的组合,专门用于加速转化器模型的训练和推理。Transformer引擎能够智能管理并动态选择FP8和16位计算,自动处理每一层中FP8和16位之间的重铸和缩放,与上一代A100相比,在大型语言模型上的AI训练速度提升了9倍,AI推理速度提升了30倍。
  HBM3内存子系统比上一代增加了近2倍的带宽。H100 SXM5 GPU是世界上第一个采用HBM3内存的GPU,提供领先于同级别的3TB/秒的内存带宽。
  50 MB L2 高速缓存架构缓存了大量的模型和数据集,在重复访问时减少了对HBM3的访问。
  与A100相比,第二代多实例GPU(MIG)技术为每个GPU实例提供了约3倍的计算能力和近2倍的内存带宽。也是首次提供具有MIG级TEE的机密计算能力。支持多达七个独立的GPU实例,每个实例都有专用的NVDEC和NVJPG单元。每个实例都包括自己的一套性能监控器,可与NVIDIA开发人员工具一起使用。
  新的机密计算(Confidential Computing)支持可以保护用户数据,抵御硬件和软件攻击,并在虚拟化和MIG环境中更好地隔离和保护虚拟机(VM)。H100实现了世界上第一个原生机密计算GPU,并以全PCIe线速向CPU扩展了可信执行环境(TEE)。
  第四代NVLink在all-reduce操作上提供了3倍的带宽,比上一代NVLink增加了50%的通用带宽,多GPU IO的总带宽为900 GB/秒,操作带宽是PCIe第五代的7倍。
  第三代NVSwitch技术包括驻扎在节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个GPU。
  节点内的每个NVSwitch提供64个第四代NVLink链接端口,以加速多GPU连接。交换机的总吞吐量从上一代的7.2 Tbits/秒增加到13.6 Tbits/秒。新的第三代NVSwitch技术还为多播和NVIDIA SHARP网内还原的集体操作提供了硬件加速。
  新的NVLink Switch系统互连技术和基于第三代NVSwitch技术的新的二级NVLink Switches引入了地址空间隔离和保护,使多达32个节点或256个GPU能够通过NVLink以2:1的锥形树状拓扑连接起来。
  这些连接的节点能够提供57.6TB/秒的all-to-all带宽,并能够提供惊人的FP8稀疏AI计算的exaFLOP。PCIe Gen 5能够提供128GB/秒的总带宽(每个方向64GB/秒),而第四代PCIe的总带宽为64GB/秒(每个方向32GB/秒)。PCIe Gen5使H100能够与最高性能的x86 CPU和SmartNICs或数据处理单元(DPU)连接。
  更多技术细节可以访问原文查看。总而言之,H100就是更快、更高、更强!(更贵)
  参考资料:
  https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

华为Mate50Pro于11月上市,4nm强芯鸿蒙3。0,有121TB版本自从美国修改规则,对华为进行四轮制裁后,华为在芯片上就一直面临短缺的状态。大家都知道,华为是全球智能手机厂商中掌握5G核心专利最多的,而且它的5G技术也是全球最强的。但碍于不能采购乘联会8月新能源销量公布MINIEV无悬念第一,比亚迪五款车霸榜近日,乘联会公布了8月份新能源汽车销量榜。8月新能源销量同比增长上涨168,环比上涨12。3,涨势喜人!在上榜的前15款车中,五菱宏光MINIEV凭借其性价比优势继续坐稳头把交椅,iPhoneSE3进入爆料阶段,A14芯片刘海屏后置单摄苹果秋季新品发布会定档北京时间2021年9月15日凌晨1点举行,而关于iPhone13系列机型的详细信息也已经得到基本确认,仅差在发布会上最终证实。不过有关苹果系列产品的爆料仍在继填补国内产业空白,浙江孔辉获小米(01810)注资智通财经APP获悉,8月30日,国内首家乘用车电控空气悬架系统供应商浙江孔辉汽车科技有限公司(简称浙江孔辉)与小米产投签订投资协议,由小米产投独家完成浙江孔辉的A1轮股权融资。浙江机关单位食堂如何进行数字化改革?一二三,刚刚认识的数字重要就利用数字,刚刚认识道德人性重要就利用人性道德,机器人炒菜呲牙信息时代支付宝扫码点餐进校园进职工食堂一样便捷高效。支付宝扫码点餐可以使每个职工自由订餐,实早上戴着助听器有声音下午就没有了,晚上放在干燥盒里,第二天又有声音,怎么搞的?早上戴着助听器有声音下午就没有了,晚上放在干燥盒里,第二天又有声音,怎么搞的?您好,这种情况大多是机器有受潮现象了,放干燥盒里干燥一晚后,白天能带一会,但机器受潮问题没有彻底解决,视频文件损坏怎么修复?免费的视频文件损坏修复工具,二花虚拟资源给你推荐这款专业的视频音频修复工具,万兴视频修复专家。万兴视频修复专家英文名为WondershareVideoRepair,是一款功能强大,一头牛6年寿命,第3,5岁各生一头牛,n年后多少牛python先统计观察,前几年的规律发现偶数年等于奇数年的数量,奇数年的数量等于前两个奇数年数的和。一defcownumber(years)n10n22foriinrange(1,years1华为鸿蒙突然更新!一键查看手机寿命不知道大家有没有一种感觉现在的旗舰手机想要用上个23年,性能已经不再是最拖后腿的了。这从近几年的手机处理器的挤牙膏式提升就可以看出来。相反,电池损耗是现在手机寿命长短的关键!毫无疑这几款家电,买一件至少能顶两件用,如果你家还没买,建议都买上随着人们对居家生活追求的提高,家电产品也越来越多样化,功能也越来越多,比如说冰箱的显示屏可以支持视音频通话,洗衣机可以用语音操控。不过,家电的功能太多,也不见得是好事,很多商家并没这就是期待已久的iPadmini6,8。8英寸全面屏,质感机身精湛不已笔歌科技独家报道苹果新品方面消息,8。8英寸的全面屏iPadmini6设计非常精湛,硬朗有质感的机身,支持ApplePencil触控笔,全新的墨绿配色,太好看了,一起来围观。018
中兴未来5年知识产权收入有望达60亿,中国6G专利申请居全球第一近日,中兴通讯发布了2021年半年度报告,公司上半年实现营收530。7亿元,归属于上市公司普通股股东的净利润为40。8亿元人民币,同比增长119。6。该公司上半年的净利润水平创下上关于超前点播腾讯视频回应了!但这回应却如此嚣张令人无语近段时间由于扫黑风暴的热播,腾讯视频等视频网站的超前点播服务再次被推上风口浪尖,再加上有网友爆出此项服务只针对国内观众割韭菜,而国外却不存在次中霸王条款,更是令部分消费者直呼被割韭推荐5个目前前景比较好可以做的副业参考一外卖骑手滴滴跑车是进入门槛比较低的行业首先介绍两个大家非常熟悉,也非常耳熟能详的副业,那就是去当外卖骑手,或者是去跑滴滴。这两个副业很多人即使自己没有去做过,但是跟他们接触也都非内卷严重的电信运营商去年以来到现在,三大运营商经营数据看好,运营收入增幅超过GDP,特别是2020年疫情影响,中国作为主要经济体中正增长的国家已经非常了不起,但通信行业增幅远超经济增长。今年上半年势头服贸会探营来源人民网人民日报技术赋能文化升级本报记者王昊男国内首个裸眼3D内球幕影院人工智能电竞体验舱360度自由视角智慧观赛位于首钢园的文旅板块线下展区,众多文化科技融合发展的最新成果,让9月即将发布的五款新机,配置信息已曝光,华为小米Vivo均有时间已经来到了9月份,各大手机厂商的新机发布并没有停止,依然在争相发力抢夺手机市场,自骁龙888Plus芯片发布后,旗舰机型有了新的升级点,华为小米Vivo均有新机,部分机型已经入时隔两年回归!小米或在9月发布5G新机这回CC系列新机真的要来了,你们是不是应该近日,工信部上出现了一款型号为2107119DC的小米5G手机。值得注意的是,有报道称,这款手机便是鸽了许久的小米CC系列手机,可能命名为将成为最便宜的5G设备?台电首款5G平板体验分享在5G的大环境下,各个手机厂商接踵而至的推出5G手机,5G平板电脑也不例外,那么预算千元能买到5G平板吗?千元想买部满意的平板一直都是个很困难的事情,很多千元平板在配置上和同价位的国产设备自研率超80,台积电也没想到,会被中企卡住5nm生产线01芯片关键设备众所周知,在芯片制造过程之中,光刻机是最为关键的设备之一,没有光刻机就没有办法制造出最为先进的芯片,目前最先进的光刻机技术掌握在荷兰的阿斯麦手中,但因为在制造过程之如何开启微信Callkit记不清多久前,微信语音或者视频被呼叫时,用户可以直接用系统自带的接电话功能接听,这个功能叫callkit。后来这个功能取消了。很多用户都特别怀念这个功能,现教大家如何开启。没有开启掐指一算节电百万广西移动基站节电系统助力碳达峰碳中和近日,记者在中国移动广西公司了解到,有一套升级后学会了AI算法的MCES节电系统,在夜间手机使用率低下的时候,能自动掐指一算对闲置的基站进行电源关断。据不完全统计,聪明的MCES系