范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

单卡功耗700W!英伟达核弹级GPU发布4nm工艺,18432个核心

  3月23日消息,当地时间22日,图形处理器大厂英伟达(NVIDIA)的2022年度GTC大会正式开幕,英伟达CEO黄仁勋在主题演讲环节正式发布针对数据中心的新一代Hopper架构的GPU芯片NVIDIA H100,同时发布的还有基于新GPU核心的加速计算卡"H100"、AI计算系统"DGX H100"。此外还有英伟达自研的服务器处理器Grace CPU。
  全新Hopper架构H100 GPU:台积电4nm工艺,800亿个晶体管
  据介绍,NVIDIA H100采用了台积电最新的4nm工艺,而且是定制版,CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管(比上一代A100多了260亿个),号称世界上最先进的芯片。
  H100完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计18432个核心。显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。
  扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0,相比A100也多了一半。整卡对外总带宽4.9TB/s。
  性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。
  英伟达强调,基于全新Hopper 架构的H100 GPU 为加速大规模AI 及高效能运算树立了新标准,并带来六项突破性创新:
  1. H100 拥有800 亿个晶体管,采用台积电4N (4nm)工艺制程、专为满足NVIDIA 加速运算需求而设计,在AI加速、高效能计算、内存带宽、互连和通信方面具有重大进展,包括每秒近5TB 的外部连接速度。H100 是首款支援PCIe Gen5 及首款使用HBM3 的GPU 产品,提供每秒3TB 的带宽。20 个H100 GPU 便足以支撑全世界的网络流量,让客户得以运行先进的推荐系统和大型语言模型,即时使用各项数据进行推论。
  2. Transformer 已是自然语言处理的首选标准模型,是史上最重要的深度学习模型之一。相较于前一代产品,H100 加速器的Transformer Engine 能够将这些网路的速度提高六倍,又不失其精度。
  3. 多执行个体GPU (Multi-Instance GPU;MIG) 技术可以将一个GPU 分割成七个较小、完全隔离的执行个体以处理各类工作。Hopper 架构在云端环境里为每个GPU 执行个体提供安全的多租户配置,将MIG 的能力较前一代扩大高达七倍。
  4. H100 是全球首款具有安全运算能力的加速器,可以在处理AI 模型和客户数据时加以保护。对于医疗和金融服务等对隐私极为敏感的产业,在进行联邦学习时同样能运用安全运算,在共享的云端基础设施上也同样可行。
  5. 为加快最大型AI 模型的运作速度,以NVLink 搭配全新的外部NVLink 交换器,将NVLink 当成伺服器以外的垂直扩展网路,相较于使用NVIDIA HDR Quantum InfiniBand 的前一代产品,能以超过9倍的频宽连接多达256 个H100 GPU,即带宽速度达到900GB/s。
  6. 与使用CPU 相比,全新DPX 指令将用于众多算法(包括路线最佳化及基因组学) 的动态规划执行速度加快高达40 倍;而与使用前一代的GPU 相比,速度加快了七倍。这包括为动态仓库环境中的自主机器人车队寻找最佳路线的Floyd-Warshall 算法,以及用于DNA 和蛋白质分类及折叠的序列比对Smith-Waterman 算法。
  英伟达进一步指出,H100 的多项技术创新扩大了其在AI 推论和训练的领先地位,使英伟达能够利用巨大的AI 模型做到即时和沉浸式应用。H100 让聊天机器人可以使用全球最强大的单体transformer 语言模型Megatron 530B,其传输量超过前一代产品达30 倍,同时满足即时对话式AI 所需的次秒级延迟。H100 同时让研究人员和开发人员能够训练像是Mixture of Experts 这类大规模模型,包含3,950 亿个参数,能将速度提高达9倍,将训练时间从过去所需的数周减少到数日便能完成。
  英伟达CEO黄仁勋表示,这款以美国电脑科学家先驱Grace Hopper命名的全新GPU架构,是为了推动下一波AI数据中心的发展,效能较上一代Ampere架构的GPU平台呈指数级成长。而基于新的Hopper架构的首款GPU产品NVIDIA H100,则是目前全球最强大的加速器,可用于推动极大规模的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生等领域的发展。
  预计2022 年第三季,H100可通过全球各大云端服务供应商及电脑制造商供货,也可以直接向英伟达购买。
  H100加速卡:功耗最高700W
  H100加速卡采用SXM、PCIe 5.0两种形态,虽然全新的GPU性能强大,但是也带来功耗的暴涨,其中后者功耗高达史无前例的700W,相比A100多了整整300W。
  按惯例也不是满血,GPC虽然还是8组,但是SXM5版本只开启了62组TPC(魅族GPC屏蔽一组TPC)、128组SM,总计有15872个CUDA核心、528个Tensor核心、50MB二级缓存。
  PCIe 5.0版本更是只有57组TPC,SM虽然还是128组,但是CUDA核心只有14952个,Tensor核心只有456个。
  同时,英伟达还将推出一款融合加速器,将H100 GPU 搭配NVIDIA ConnectX-7 400Gb/s InfiniBand 及Ethernet SmartNIC。而H100可以部署在各类型的数据中心内,包括企业内部、云端、混合云和边缘。
  Connect TX-7网络互连芯片基于台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息率。
  DGX H100系统
  英伟达还宣布推出了第四代NVIDIA DGX H100系统,这也是全球首款搭载全新NVIDIA H100的AI平台,新一代系统提供的运算规模足以满足大型语言模型、推荐系统、医疗研究及气候科学等领域所需进行的海量运算。每个系统搭载8个H100 GPU,并通过NVIDIA NVLink技术互连。
  凭借DGX H100系统集成的8颗H100芯片,再搭配两颗PCIe 5.0 CPU处理器,克拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。
  性能方面,AI算力32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。PCIe 5.0版本的性能基本都再下降20%。
  黄仁勋称,DGX H100系统是下一代NVIDIA DGX POD及DGX SuperPOD的AI基础设施平台的基石。
  最新的DGX SuperPOD架构搭载全新NVLink交换器系统,可以连接多达32个节点上总共256个H100 GPU,也就是整合了256颗H100芯片。此外,"DGX POD"系统内,还有20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。
  据介绍,该系统合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。
  自研Grace CPU,挑战英特尔服务器处理器市场地位
  在此次GTC 2022大会上,英伟达还正式宣布推出了首款自研的针对人工智能(AI) 基础架构与高效能运算所设计的数据中心处理器 Grace CPU。英伟达称,与当今顶尖的服务器处理器相比,其可提供最高的效能表现,以及两倍的内存带宽与能源使用效率。
  据介绍,Grace CPU基于基于Arm Neoverse 架构设计,并由两个 CPU 芯片组成,并通过全新高速、低延迟、芯片到芯片互连的 NVLink-C2C 进行连接。有点类似苹果最新推出的M1 Ultra。
  而Grace CPU与英伟达在2021年宣布推出的首款 CPU-GPU 整合模组 Grace Hopper 超级芯片相得益彰,该模组是为搭配 NVIDIA Hopper 架构 GPU 使用所设计,并共同支持大规模高效能运算及 AI 应用。这两款超级芯片皆使用相同的底层 CPU 架构与 NVLink-C2C 互连技术。
  黄仁勋表示,随着全新型态的AI数据中心的出现,这款集最高效能、内存带宽和 NVIDIA 软体平台于一身的 Grace CPU 超级芯片,将作为全球 AI 基础架构的 CPU 而大放异彩。
  NVIDIA强调,Grace CPU 超级芯片旨在提供最佳的效能表现,其单一CPU搭载 144 个 Arm Neoverse核心,并在 SPECrate2017_int_base 基准测试中获得领先业界的 740 分预估效能。与目前随 DGX A100 出货的双 CPU 相比,其效能表现高出超过 1.5 倍,这是英伟达实验室使用同级编译器估算的结果。
  另外,Grace CPU 超级芯片亦可提供领先业界的能源使用效率和内存带宽,其创新的内存子系统由带有纠错码的 LPDDR5x 内存组成,在速度与功耗间取得最佳平衡。LPDDR5x 内存子系统以 1 TB/s 的速度,提供较传统 DDR5 设计的两倍带宽,同时大幅降低整个 GPU 的功耗,包括仅消耗 500 瓦的内存。而且,基于最新的Armv9数据中心架构的Grace CPU 超级芯片将最高的单执行绪核心效能,结合支持 Arm 新一代的向量扩充指令集,将立即为许多应用程序带来优异的效能表现。
  而 Grace CPU超级芯片将可运行 NVIDIA 的所有运算软件堆叠,包括 NVIDIA RTX、NVIDIA HPC、NVIDIA AI 和 Omniverse。Grace CPU 超级芯片搭配 NVIDIA ConnectX-7 NIC,可以弹性配置到服务器中,作为独立的纯 CPU 系统,或搭载一个、两个、四个或八个采用 Hopper 架构GPU 的 GPU 加速服务器,客户便能按照特定的作业负载进行最佳化调整效能,同时保持单一的软体堆叠。
  NVIDIA进一步强调,当前高效能运算应用程序为密集运算、需使用最高效能核心、最高内存带宽与适合每个核心的内存容量,来加速运算结果。因此,NVIDIA 的Grace CPU 超级芯片的 144 个核心和 1TB/s 的内存带宽,将为以 CPU 为基础的高效能运算应用程式提供前所未有的效能。
  现阶段,NVIDIA 正与顶尖的高效能运算、超级运算、超大规模与云端客户就 Grace CPU 超级芯片展开合作。Grace CPU 超级芯片与 Grace Hopper 超级芯片预计将于 2023 年上半年上市。
  编辑:芯智讯-浪客剑 综合自快科技、Technews等

海外财经媒体焦点英国智库预测2022年全球GDP将首破100万亿美元财联社12月27日讯,上周五以及刚刚过去的周末,海外市场聚焦公司动态以及疫情形势。公司动态方面,奥密克戎当前美新冠检测能力不足,罗氏家用试剂盒获FDA紧急使用授权苹果被指违反荷兰竞DeFiVBT去中心化那VBTBurnTokenDapp有哪些优势呢?1项目优势100去中心化,完全建立于智能合约上,公开透明,无资金沉淀,永不关网。2零风险部署于区块链上的完全开源的智能合约,合约永久换电数据中心光储锂电池充电桩动力源112月1日3日,由充换电百人会中国充电桩网中国充换电产业创新联盟联合主办的2021第五届深圳国际充电站(桩)技术设备展览会在深圳会展中心隆重举办动力源行业首推的3OKW液冷充电模改变CRUD认知Web3去中心化亮点在哪里?web3是以区块链为技术基础的互联网,其中涉及思维的根本变化传统数据库提供CRUD的增删改查功能已经变成很多人的默认假设前提,数据不能编辑是违背这个假设,因此认为是违背常识的,这就东航研发中心首获国家高端科技创新智库青年项目立项中国民航报中国民航网记者胡夕姮通讯员权钺报道近日,中国科协发布了2021年度高端科技创新智库青年项目立项名单,东航研发中心的新形势下企业参与基础研究的模式路径及政策研究课题获批立项说电商不死实体不兴的多是偏激分子,电商和实体未来将融合一体服装行业因其特性,是电商化最透彻的行业,也是电商平台销售量最大的品类,因此导致电商模式对传统服装企业的冲击也是最严重的。我认为随着直播电商行业的整顿,服装行业将迎来翻天覆地的变化,投资500亿,召集千人团队,OPPO给国产手机上了一课众所周知,芯片和系统一直都是我国科技行业的发展弱项,又或者说,如果不是当年的汉芯事件,或许我国的芯片发展并不会如此缓慢。而系统方面,更是让微软谷歌抢占了先机,如今已经占据了几乎所有中国知网终于道歉了中国知网向赵德馨教授道歉,并称将全面检查在互联网业态下的著作权保护与使用授权方式短短几天,中国知网多次登上了舆论的风口浪尖先有央视网批评老教授向知网索赔70万侵权费一事借鸡生蛋生意阿里与字节跳动的时代共识走进阵地战图片来源视觉中国文丨财经琦观马云曾告诉王兴其实我最强的是管理。四年后,张一鸣在微博写下Developacompanyasaproduct。(像做产品一样来运作公司)如今,阿里有阿里深度解析戴森创新之路不计成本地投入,方有颠覆生活的产品如今,室内生活场景已成为科技造福人类的主要场地之一。人们对当下生活场景未被满足的需求对未来生活的无限畅想,都在被一一完成实现。科技如何改变生活?今天,我们不妨以全球小家电市场规模最字节跳动入局公有云市场来源经济参考报在通过飞书迈开ToB业务第一步后,字节跳动日前宣布进入公有云市场,并正式对外发布全系云产品,在ToB市场再落重磅一子。据了解,此次字节跳动旗下火山引擎发布的全系云产品
换季室内空气差怎么办?马上就要换季了,空气又不可避免地要变差,各种灰尘雾霾接踵而至,让家里的空气变得十分糟糕。与其默默忍受浑浊的室内空气,为什么不考虑入一台空气净化器呢?一只眼睛就能搞定室内空气问题,这这是要干嘛,为何小米不再使用MIlogo,全面改用xiaomi在logo方面,我觉得就佩服苹果,苹果并没有过多强调与字母logo,更多是图形logo,在很多商品上都用图形logo来呈现,我觉得很简约很方便,曾经还在想,如果小米全方面的在硬件设小米11T系列规格出炉,小米11首当其冲跌至大米价刷新发烧纪录8月25日,mysmartprice公布了小米11T系列的参数。消息称,小米11T和小米11TPro两款旗舰有8GB128GB和8GB256GB两种选择。其中,小米11T搭载联发科微信更新边写边译支持中文英文日文韩语近日,微信进行了新版本更新,虽然更新详细只提到解决了一些已知问题。但小编还是发现了一个新功能边写边译,该功能可以在对话框输入时实时提供翻译,目前支持的语言繁体中文英文日文韩语等。具同款IMX766,华为P50ProiQPO8ProFindX3Pro夜景拍照横评随着OPPO独占期的结束,索尼IMX766传感器被多家手机厂商使用,华为P50Pro也放弃了超大底RYYB传感器IMX700,转投IMX766,下面我们对比iQOO8ProOPPO长安全新电动轿车C385发布全新架构打造外形科幻8月24日,长安汽车官方正式发布了旗下的全新纯电动轿车,新车的内部代号是C385,但具体命名还没有公布。官方称,新车是基于长安全新专用电动车平台打造的,也是该平台旗下的首款车型。从2800卖掉iPhone11,老果粉最后入了OPPOFindX3,高刷快充真香换机原因直接开门见山地说吧,作为一个老的iphone手机用户,用了多年的iphone手机,5c开始到最新的11。一年半前买过三部安卓机,都是不过一周就出掉了,总体使用下来感觉并不好科技巨头又一个新战场机器人时代正在开启纵观人类生产力的发展历程,先后经历了手工劳动时代机械化时代电气化时代自动化时代,现如今正加速进入到智能化时代。在这一时代背景下,以机器人为代表的智能产业正蓬勃兴起,科技巨头纷纷将目从4999元跌至1899元,鸿蒙OS麒麟980,从高端市场跌至低端市场华为公司在8月份上架了两次新机都引发了热议,第一次上架的是华为P50Pro,这也是华为公司最新的顶尖旗舰,而第二次上架的手机并不只有一款,而是多款,只不过这些手机都是华为旗舰二手机自研才是国产手机的唯一出路这十几年间,国产手机经历了如何的发展?其中又有哪些技术革新,对整个行业产生如何的影响,想必各位也都不会陌生。从大局观来看,淘汰了劣质的山寨手机,将智能手机推向大众化品质化的消费市场黑鲨游戏手机4怎么样?黑鲨游戏手机4(8GB256GB5G版)最新价格是2999元,再加上它亲民的售价,显得性价比颇高!上市时间为2021年03月23日。这款手机大电池的加持告别了低电量的焦虑。首先,我