AI的iPhone时刻之后,英伟达新核弹为ChatGPT提速
英伟达在推理方面的全新GPU推理平台包括:4种配置(L4TensorCoreGPU、L40GPU、H100NVLGPU、GraceHopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。
加速计算并非易事,2012年,计算机视觉模型AlexNet动用了GeForceGTX580,每秒可处理262PetaFLOPS。该模型引发了AI技术的爆炸。十年之后,Transformer出现了,GPT3动用了323ZettaFLOPS的算力,是AlexNet的100万倍,创造了ChatGPT这个震惊全世界的AI。崭新的计算平台出现了,AI的‘iPhone时刻’已经来临。
当地时间3月21日,英伟达首席执行官黄仁勋将OpenAI的ChatGPT称为人工智能的iPhone时刻,并在该公司的春季GTC大会上宣布了专为其设计的推理GPU(图形处理器)。
除此之外,英伟达还发布了AI超级计算服务DGXCloud、突破性的光刻计算库cuLitho、加速企业创建大模型和生成式AI的云服务NVIDIAAIFoundations等,以及与QuantumMachines合作推出了全球首个GPU加速量子计算系统。
ChatGPT专用GPU
其中最主要的是H100NVL,它将英伟达的两个H100GPU拼接在一起,以部署像ChatGPT这样的大型语言模型(LLM)。当前唯一可以实际处理ChatGPT的GPU是英伟达HGXA100。与前者相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。黄仁勋说。
H100NVL将英伟达的两个H100GPU拼接在一起,以部署像ChatGPT这样的大型语言模型(LLM)。
H100不是新的GPU,英伟达在一年前的GTC上展示了其Hopper架构,并在各种任务中加速AI推理(推理是机器学习程序部署的第二阶段,此时运行经过训练的程序以通过预测来回答问题)。英伟达表示,H100NVL附带94GB内存,与上一代产品相比,H100的综合技术创新可以将大型语言模型的速度提高30倍。
据黄仁勋透露,H100NVL预计将在今年下半年上市。
第二款芯片是用于AIVideo的L4,在视频解码和转码、视频内容审核、视频通话功能上做了优化。英伟达称其可以提供比CPU高120倍的AI视频性能,同时能效提高99。也就是说,一台8GPUL4服务器,将取代一百多台用于处理AI视频的双插槽CPU服务器。
用于AIVideo的L4芯片,在视频解码和转码、视频内容审核、视频通话功能上做了优化。
谷歌是第一家提供L4视频芯片的云提供商,目前处于私人预览版。L4将集成到谷歌的VertexAI模型商店中。黄仁勋说。除了谷歌的产品外,L4还在30多家计算机制造商的系统中提供,其中包括研华、华硕、源讯、思科、戴尔科技、富士通、技嘉、惠普企业、联想、QCT和超微。
同时,英伟达还针对Omniverse、图形渲染以及文本转图像视频等生成式AI推出了L40芯片。其性能是英伟达最受欢迎的云推理GPUT4的10倍。另外,英伟达还推出了全新的超级芯片GraceHopper,适用于推荐系统和大型语言模型的AI数据库,图推荐模型、向量数据库和图神经网络的理想选择,通过900GBs的高速一致性芯片到芯片接口连接英伟达GraceCPU和HopperGPU。
4种配置(L4TensorCoreGPU、L40GPU、H100NVLGPU、GraceHopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。
总体而言,英伟达在推理方面的全新GPU推理平台包括:4种配置(L4TensorCoreGPU、L40GPU、H100NVLGPU、GraceHopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。
月租云端AI算力
在黄仁勋的主题演讲中,多次提到了ChatGPT的创建者OpenAI。黄仁勋于2016年向该公司交付了附有自己签名和赠语的全球第一台DGX。这台集成了8块通过NVLink共享算力的H100组成的超级计算机,为OpenAI奠定了创造ChatGPT的重要算力基础。
自OpenAI使用DGX以后,《财富》100强企业中有一半安装了DGXAI超级计算机。DGX已成为AI领域的必备工具。黄仁勋说。
在GTC大会上,英伟达推出云端人工智能DGXCloud。DGXCloud提供了专用的NVIDIADGXAI超级计算集群,用户能够按月租用这些计算资源,并使用简单的网络浏览器访问。从而消除在本地获取、部署和管理基础设施的成本,大大增加了AI的便捷性。
如今通过一个浏览器,就能将DGXAI超级计算机即时地接入每家公司。黄仁勋憧憬道。
每个DGXCloud实例都具有8个H100或A10080GBTensorCoreGPU,每个节点共有640GBGPU内存。
据介绍,每个DGXCloud实例都具有8个H100或A10080GBTensorCoreGPU,每个节点共有640GBGPU内存。使用NVIDIANetworking构建的高性能、低延迟结构确保工作负载可以跨互连系统集群扩展,允许多个实例充当一个巨大的GPU,以满足高级AI训练的性能要求。
据黄仁勋介绍,每个实例的月租价格为36999美元起。
在演讲中,黄仁勋宣布,英伟达将与云服务提供商合作托管DGX云基础设施。目前英伟达已经与甲骨文达成合作,甲骨文的OCIRDMASupercluster已经提供了一个可扩展到超过32000个GPU的超级集群。微软云服务Azure预计下个季度开始托管DGXCloud,很快谷歌云也将加入托管的行列。
挑战物理极限,光刻提速40倍
除了芯片,黄仁勋还谈到了一个名为cuLitho的计算光刻库,它将部署在芯片制造中。光刻计算库cuLitho可将计算光刻加速40倍以上,使得2nm及更先进芯片的生产成为可能。
光刻计算库cuLitho可将计算光刻加速40倍以上,使得2nm及更先进芯片的生产成为可能。
全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大EDA巨头新思科技均参与合作并引入这项技术。该计划旨在加快制造光掩模的任务,光掩模是用以将集成电路以及其他各种电路通过光刻技术印制在晶圆上的图形母板,相当于书籍印刷的母板。
计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。
光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的13甚至更多。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。
计算光刻是提高光刻分辨率、推动芯片制造达到2nm及更先进节点的关键手段。
计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。大型数据中心24X7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。而黄仁勋说,cuLitho能够将计算光刻的速度提高到原来的40倍。
也就是说英伟达H100GPU需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。
据介绍,台积电可通过在500个DGXH100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。使用cuLitho的晶圆厂,每天可以生产35倍多的光掩膜,仅使用当前配置电力的19。
黄仁勋说,该软件正被集成到全球最大的代工芯片制造商台积电的设计系统中,台积电将于6月开始对cuLitho进行生产资格认证。它还将被集成到Synopsys的设计软件中,Synopsys是少数几家使用软件工具制造新芯片底板的公司之一。
新思科技董事长兼首席执行官AartdeGeus称,在英伟达的cuLitho平台上运行新思科技的光学邻近校正(OPC)软件,将性能从几周加速到几天。
台积电首席执行官魏哲家则夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性,为半导体规模化做出重要贡献。阿斯麦首席执行官PeterWennink称阿斯麦计划将对GPU的支持集成到其所有的计算光刻软件产品中。
其他更新
英伟达还推出了全新云服务及代工厂NVIDIAAIFoundations,这个云服务包括语言、视觉和生物学模型制作服务。
其中,NeMo是用于构建定制的语言文本转文本生成式模型。
NeMo是用于构建定制的语言文本转文本生成式模型。
Picasso是视觉语言模型构建服务,具有文生图、文本转视频、文本转3D功能,可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。只要向Picasso发送文本提示和元数据的API调用,Picasso就会用DGXCloud上的模型把生成的素材发送回应用。
Picasso是视觉语言模型构建服务。
而把这些素材导入NVIDIAOmniverse,就可以构建逼真的元宇宙应用,和数字孪生仿真。
BioNeMo是生命科学服务,提供AI模型训练和推理,加速药物研发中最耗时和成本最高的阶段,可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。
直接在浏览器上或通过API,均可访问这些运行在NVIDIADGXCloud上的云服务。NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私人预览中。
英伟达与QuantumMachines合作推出了一个量子控制链路,它可将英伟达GPU连接到量子计算机,以极快的速度进行纠错。
面向量子计算,要从量子噪声和退相干中恢复数据,需要对大量量子比特进行纠错。对此,英伟达与QuantumMachines合作推出了一个量子控制链路,它可将英伟达GPU连接到量子计算机,以极快的速度进行纠错。
面向元宇宙领域,英伟达推出了第三代OVX计算系统和新一代工作站,为基于NVIDIAOmniverseEnterprise的大规模数字孪生提供动力。
面向元宇宙领域,英伟达推出了第三代OVX计算系统和新一代工作站,为基于NVIDIAOmniverseEnterprise的大规模数字孪生提供动力。微软和英伟达正在将工业元宇宙引入Microsoft365应用程序(如Teams)和Azure云。
微软也是OmniverseCloud的首批云合作伙伴之一。英伟达的云服务预计将于今年下半年在MicrosoftAzure上推出。Omniverse还将连接到AzureIoT,以便将来自AzureDigitalTwins的真实世界传感器数据传输到Omniverse模型。
OmniverseCloud还瞄准了汽车行业,宝马、梅赛德斯奔驰、沃尔沃、丰田和比亚迪等几家大公司已经在使用Omniverse执行各种任务。
此外,英伟达与三菱联合发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo1。通过在Tokyo1上使用NVIDIABioNeMo软件,研究人员能运行高达数十亿参数的先进AI模型,包括蛋白质结构预测、小分子生成、姿态估计等。
妈妈我想你了妈妈走了,我还像做梦一样,我用自己的脸贴着妈妈的脸,我握着妈妈的手,一直到妈妈独自上车的最后一刻我还感觉到妈妈手软软的,妈妈的余温还在。我的心脏在疼,接下来大部分的时间心里都是空荡
考场百态上课铃声响后,喧闹的校园一下子静悄悄的。老师们捧着试卷走出办公室,走向不同的班级。有的直接走进教室,有的站在教室门口,严厉地扫视班里的学生,调皮捣蛋的交头接耳的哈哈大笑的,都在这眼
夏天的飞鸟Straybirdsofsummer36。hrThewaterfallsings,Ifindmysong,whenIfindmyfreedom。瀑布歌唱着我得到自由时,也就有了歌声。37。hrIcannottellw
死在成名之前头条创作挑战赛挑战30天在头条写日记越想要早点获得成功,成功离你的距离好像就越遥远。这里指的是世俗定义的成功,不是个人生活追求上的成功。如果你不屑于去取悦世俗人的眼光,按照别人眼中
一个人的窦圌(chuan)山之行老婆和俩闺蜜带娃去魔都了,我也不去凑热闹了,一个人回江油看看,这盘我不便乘回去,要享受,买高档座回去,对面的复兴号,我去,买特等座买了个寂寞,面毕到了中坝嘛,首站还是去儿时的乐园太
美景如画常宁早樱争春满园红妆位于常宁市罗桥镇庙山村的百万樱花园内樱花竞相盛开。红网时刻衡阳2月22日讯(通讯员钱辉记者蒋楠)满园春色关不住,樱花浪漫是此时。近日,位于常宁市罗桥镇庙山村的百万樱花园内樱花竞相盛
公狮上阵8秒就结束了!动物园帮缓颊一天可做50次泰国动物园一对非洲狮在游客面前上演活春宫,但才亲热8秒就结束。(示意图达志影像)情人节(214)当天泰国游客到柯叻动物园游玩,未料逛到非洲狮展示区时,眼前竟上演活春宫,只见2只狮子
再回首,背影已远!徒步南太行一群人,背着包去远足,要去走没有走过的路,要去爬没有爬过的山,胆大的在前边开路,胆小的跟着后面一步一趋,一句有蛇,回响起一山的惊呼,行走到绝望,又欣喜到哭泣,在路上,你不
刘雯,张嘉倪机场出发参加巴黎时装周娱评大赏国际超模刘雯和著名演员张嘉倪出发前往法国巴黎,参加时装周活动,两人真穿帅气私服,亮相机场。刘雯和何穗都是国际超模,曾经穿上维多利亚的秘密内衣时装秀天使翅膀。高挑的身材和灿烂
这才是日本女人反油腻的秘诀绝不穿老年装,妆发精致又得体难道上了年纪的归宿就是油腻?No,相信不少人都打心底里抗拒油腻感。那今天就一起来打赢反油腻的第一战吧,别等真变成了油腻大妈才后悔在反油腻路上最有心得的当数日本女人。日系风格本就清爽
牛仔裤搭配这4种上衣,时髦又高级!嗨,各位小仙女们,大家好呀!不管每一季流行什么裤子,都有种裤子会成为时尚圈里的不败之选!它就是牛仔裤了,众所周知,牛仔裤这种裤装可是很不挑人的,也十分百搭,无论与什么上衣相配都ok