2023年1月11日,北京今日,以芯加速行至远为主题的第四代英特尔至强新品发布会在北京正大中心盛大举行。会上,英特尔正式推出第四代英特尔至强可扩展处理器(代号SapphireRapids)、英特尔至强CPUMax系列(代号SapphireRapidsHBM)以及英特尔数据中心GPUMax系列(代号PonteVecchio),在实现数据中心性能、能效和安全性大幅跃升的同时,为AI、云、网络、边缘和全球领先的超级计算机带来全新功能。 基于第四代英特尔至强可扩展平台,英特尔携手客户及产业伙伴密切合作,大规模提供差异化解决方案和系统以助力其解决算力挑战。英特尔致力于通过其独特的以结果为导向、工作负载至上的策略,及针对特定工作负载高度优化的软件,为不同工作负载和需求匹配对应的功耗和性能,并实现理想的总体拥有成本。会上,来自腾讯云、天翼云、京东云、阿里云、火山引擎、吉利汽车、浪潮信息与亚信科技的伙伴亦分享了其如何基于全新英特尔数据中心产品推动产品、技术创新,及在诸多领域落地的成功实践。 此外,值得注意的是,作为英特尔迄今为止最具可持续性的数据中心处理器,第四代英特尔至强可扩展处理器为客户提供一系列功能,以优化产品功率和性能,旨在通过充分利用CPU资源助力其实现可持续发展的目标。 英特尔执行副总裁兼数据中心与人工智能事业部总经理SandraRivera表示:第四代英特尔至强可扩展处理器和Max系列产品的发布,对于推动英特尔在数据中心领域阔步前行,增强数据中心领域的领导地位,以及进一步探索新领域的发展机会极具意义。第四代英特尔至强可扩展处理器和Max系列产品能够满足客户真实所需,即在安全的环境中兼具领先的性能和可靠性,不仅能够满足客户的实际应用需求,亦有助于其加速实现业务价值及创新。 发布会上,英特尔市场营销集团副总裁兼中国区总经理王稚聪与英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰亦分别进行分享。王稚聪在致辞中指出:数字经济已成为经济高质量发展的重要支撑,值此经济发展回稳走强之际,半导体行业的新增长机会亦接踵而至。籍此,英特尔将在‘五大超级技术力量’的驱动下,推动产品和技术创新,为生态伙伴持续赋能,助力产业向纵深发展,进而为我国经济发展再添新动力。 英特尔市场营销集团副总裁兼中国区总经理王稚聪现场致辞 不同于目前市场上的其它数据中心处理器,第四代至强家族充分体现了英特尔以结果为导向、工作负载至上的策略。 英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰展示第四代英特尔至强可扩展处理器晶圆 丰富的内置加速器带来领先的性能和可持续发展优势 目前,至强处理器的安装量已超过一亿从运行IT服务的本地服务器,其中包括全新的即服务商业模式,到管理互联网流量的网络设备,再到进行边缘计算的无线基站和云服务等。 基于数十年来在数据中心、网络和智能边缘领域的创新和领导地位,全新第四代英特尔至强可扩展处理器通过丰富的内置加速器提供领先的性能,解决客户在AI、分析、网络、安全、存储和科学计算领域面临的重大计算挑战。 与前一代相比,第四代英特尔至强可扩展处理器通过内置加速器将目标工作负载的平均每瓦性能提升了2。9倍1,在优化电源模式下每个CPU节能高达70瓦2并对性能只产生极低的影响,同时将总体拥有成本降低52到663。 可持续性 第四代英特尔至强可扩展处理器拥有丰富的内置加速器,意味着英特尔能够提供平台级的功率节省,并缓解对额外独立加速方面的需求,帮助客户实现可持续发展目标。此外,新的优化电源模式可以为某些工作负载带来高达20的插槽节能,而对性能的影响仅有不到511。风冷和液冷的创新进一步降低了数据中心的总能耗,且第四代至强可扩展处理器在英特尔工厂制造时,运用了超过90的可再生电力,并同时配备了一流的水资源回收设施。 人工智能 在AI方面,与前一代相比,通过内置英特尔高级矩阵扩展(英特尔AMX)加速器,第四代英特尔至强可扩展处理器将PyTorch实时推理和训练性能提升了10倍5,6。第四代英特尔至强可扩展处理器还将广泛的AI工作负载的推理和训练性能提升到新的高度。英特尔至强CPUMax系列在这些功能的基础上针对自然语言处理进行了扩展,将大型语言模型的处理速度提升多达20倍12。借助英特尔的AI软件套件,开发者可以使用自己选择的AI工具,提高生产力并加快AI开发速度。该套件可以从工作站进行移植,使其可以在云中扩展,并一直扩展到边缘。同时,该套件已经针对400多个机器学习和深度学习AI模型进行了验证,涵盖所有商业细分领域最常见的AI应用场景。 网络 第四代英特尔至强可扩展处理器包含一系列针对高性能、低时延网络和边缘工作负载进行了特别优化的处理器产品。对于如今电信、零售、制造和智慧城市等行业正在推动更加软件定义的未来,这些处理器将发挥关键性基石作用。对于5G核心工作负载,内置加速器有助于提高吞吐量和降低时延,而电源管理的升级则提高了平台的响应能力和能效。此外,与前几代相比,第四代英特尔至强可扩展处理器在不增加功耗的情况下提供多达两倍的虚拟无线接入网(vRAN)容量。这使通信服务提供商能够将每瓦性能提高一倍,满足其关键的性能、扩展和能效需求。 科学计算 第四代英特尔至强可扩展处理器和英特尔Max系列产品具备可扩展、平衡的架构,其中整合了CPU、GPU和oneAPI的开放软件生态系统,适用于科学计算和AI等领域要求严苛的计算工作负载,旨在帮助解决全球最具挑战性的问题。 英特尔至强CPUMax系列是集成高带宽内存的x86处理器,能够在无需变更代码的情况下为科学计算工作负载加速。英特尔数据中心GPUMax系列提供极高的计算密度,且具有多种产品规格以满足不同的客户需求。 英特尔至强CPUMax系列可提供64GB的高带宽内存(HBM2e),为科学计算和AI工作负载大幅提高了数据吞吐量。与第三代英特尔至强可扩展处理器的高端SKU相比,英特尔至强CPUMax系列可为如能源、地球系统建模等一系列实际应用提供高达3。7倍10的性能提升。 此外,英特尔数据中心GPUMax系列在单个产品上整合47个小芯片,集成了超过1000亿个晶体管,为诸如物理、金融服务和生命科学等极具挑战性的工作负载带来更高的吞吐量。相较上一代产品,英特尔数据中心GPUMax系列和至强CPUMax系列的结合,可以使生命与材料科学领域LAMMPS处理性能提升12。8倍13。 兼具强劲性能和安全性的至强平台 作为英特尔重要的平台转型体现,第四代英特尔至强可扩展处理器不仅具备卓越的加速性能,亦体现了重大的制造进展。其能够在一个封装上集成多达4个采用Intel7制程工艺制造的单元,这些区块通过英特尔嵌入式多芯片互连桥接(EMIB)封装技术连接。第四代英特尔至强可扩展处理器还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5。0和ComputeExpressLink(CXL)1。1互连增加了IO带宽。 安全是一切的基础。通过第四代英特尔至强可扩展处理器,英特尔提供数据中心芯片行业广泛的机密计算产品组合,同时保护敏感数据和受到法律法规严格保护的数据。作为为数据中心计算提供应用隔离的芯片厂商,英特尔凭借英特尔软件防护扩展(英特尔SGX),在私有云、公有云和从云到端的环境中,为使用中的数据提供硬件加密,以实现当前机密计算领域更小的攻击面。此外,作为英特尔全新的虚拟机隔离技术,英特尔TrustDomainExtensions(英特尔TDX)非常适合把现有应用移植到机密环境,该特性将在微软Azure、阿里云、谷歌云和IBM云中首发。 最后,第四代英特尔至强的模块化架构让英特尔能够提供广泛的处理器,针对客户的使用场景或应用提供接近50个有针对性的SKU,其中包括从主流通用SKU到面向云、数据库和分析、网络、存储和单插槽边缘使用场景的专用SKU。第四代英特尔至强处理器家族支持英特尔OnDemand,能够针对不同使用场景和外形规格提供不同的核心数、频率、加速器组合、功率和内存吞吐量,从而满足客户的实际应用需求。 数字化浪潮奔涌向前,加速数字化发展已成为关乎长远发展的必修课。基于此,作为数字经济建设和数字产业向前发展的重要参与者和关键推动者,英特尔将在五大超级技术力量的驱动下,秉承以结果为导向、工作负载至上的策略,以稳健的执行力、卓越的产品技术领导力,及强大的生态影响力,持续助力本地生态伙伴全方位、深层次创新,为中国数字经济的高质量发展夯实基础。 如下工作负载的几何平均值:RocksDB(IAAvsZTD)、ClickHouse(IAAvsZTD)、SPDK大型媒介与数据请求代理(DSAvs开箱即用)、图像分类ResNet50(AMXvsVNNI)、物体识别SSDResNet34(AMXvsVNNI)、QATzip(QATvszlib) 1节点,英特尔参考验证平台,2个英特尔至强8480(56C,2GHz,350WTDP),启用超线程,启用睿频,总内存:1TB(16个插槽64GB4800MHz),1个P45103。84TBNVMePCIeGen4驱动器,BIOS:0091。D05,(ucode:0x2b0000c0),CentOSStream8,5。15。0spr。bkc。pc。10。4。11。x8664,JavaPerfWattwopenjdk1128linuxx64bin,112个实例,1550MB初始堆最大堆大小,英特尔截至2022年1月的测试。 ResNet50图像分类 新配置:1节点,2个预生产的第四代英特尔至强可扩展处理器8490H(60核),含英特尔高级矩阵扩展(英特尔AMX),预生产超微SYS221HTNR,1024GBDDR5内存(16x64GB),微代码0x2b0000c0,启用超线程,启用睿频,关闭SNC,CentOSStream8,5。19。16301。fc37。x8664,1x3。84TBP5510NVMe,10GbEx540AT2,英特尔TF2。10,AIModelResnet50v15,最高得分:BS1AMX1核实例(最高15msSLA),使用物理内核,英特尔在2022年11月进行的测试。基准:1节点,2个第三代英特尔至强可扩展处理器8380(40核),超微SYS220UTNR,1024GBDDR4内存(16x64GB),微代码0xd000375,启用超线程,启用睿频,关闭SNC,CentOSStream8,5。19。16301。fc37。x8664,1x3。84TBP5510NVMe,10GbEx540AT2,英特尔TF2。10,AIModelResnet50v15,最高得分:BS1INT82核实例(最高15msSLA),使用物理内核,英特尔在2022年11月进行的测试。 包含50台配备第三代英特尔至强处理器8380的服务器编队(RN50wDLBoost),截至2022年11月的估计: 资本成本:164万美元 运营成本(4年,包括电力和散热成本,基础设施和硬件维护成本):73。99万美元 能耗kWh(4年,每台服务器):44627,PUE1。6 其它假设:电价0。1kWh,kWh对应千克CO2系数为0。42394 包含17台配备第四代英特尔至强处理器8490H的服务器编队(RN50wAMX),截至2022年11月的估计: 资本成本:79。94万美元 运营成本(4年,包括电力和散热成本,基础设施和硬件维护成本):27。53万美元 能耗kWh(4年,每台服务器):58581,PUE1。6 人工智能通过部署更少的基于第四代英特尔至强处理器的服务器,在实现相同性能要求的情况下,TCO降低达55。请参阅intel。comprocessorclaims上的〔E7〕:第四代英特尔至强可扩展处理器。结果可能会有所不同。 数据库通过部署更少的基于第四代英特尔至强处理器的服务器,在实现相同性能要求的情况下,TCO降低达52。请参阅intel。comprocessorclaims上的〔E8〕:第四代英特尔至强可扩展处理器。结果可能会有所不同。 HPC通过部署更少的基于英特尔至强CPUMax系列处理器的服务器,在实现相同的性能要求的情况下,TCO降低达66。请参阅intel。comprocessorclaims上的〔E9〕:第四代英特尔至强可扩展处理器。结果可能会有所不同。 4HPLinpack、StreamTriad、SPECrate2017fpbaseest、SPECrate2017intbaseest的几何平均值。〔G2,G4,G6〕参见intel。comprocessorclaims:第四代英特尔至强可扩展处理器。 5与前一代(FP32)相比,通过内置英特尔高级矩阵扩展(英特尔AMX)(BF16),PyTorch实时推理性能提升至高可达10倍 ResNet50、BertLarge、MaskRCNN、SSDResNet34、RNNT、Resnext101的PyTorch几何平均值。 6与前一代(FP32)相比,通过内置英特尔高级矩阵扩展(英特尔AMX)(BF16),PyTorch训练性能提升至高可达10倍 ResNet50、BertLarge、DLRM、MaskRCNN、SSDResNet34、RNNT的PyTorch几何平均值。 7截至2022年8月30日的估计,使用FlexRAN软件测试,对比了第四代英特尔至强可扩展处理器和第三代英特尔至强可扩展处理器的架构提升,拥有类似的内核数量、插槽功率和频率。结果可能不同。 8内核数量可少95和2倍的一级压缩吞吐量,对比了包含集成英特尔QAT的第四代英特尔至强白金8490H和前一代。 8490H:1节点,配备2个集成了英特尔数据保护与压缩加速技术(英特尔QAT)的第四代英特尔至强可扩展处理器(60核)的预生产平台,利用的QAT设备8(2个活跃插槽),总计1024GB(16x64GB)DDR5内存,微代码0xf000380,启用超线程,关闭睿频,关闭SNC,Ubuntu22。04。1LTS,5。15。047generic,1x1。92TBIntelSSDSC2KG01,QATv20。l。0。9。1,QATzipv1。0。9,ISALv2。3。0,截至英特尔2022年9月的测试。 8380:1节点,2个第三代英特尔至强可扩展处理器(40核),CoyotePass平台,DDR4内存1024GB(16x64GB),微代码0xd000375,启用超线程,关闭睿频,关闭SNC,Ubuntu22。04。1LTS,5。15。047generic,1x1。92TBIntelSSDSC2KG01,QATv1。7。l。4。16,QATzipv1。0。9,ISALv2。3。0,截至英特尔2022年10月的测试。 9至高可达3倍的RocksDB性能,对比了集成英特尔IAA的第四代英特尔至强白金8490H和前一代。 8490H:1节点,配备2个集成了英特尔内存分析加速器(英特尔IAA)的第四代英特尔至强可扩展处理器(60核)的预生产英特尔平台,启用超线程,启用睿频,总内存1024GB(16x64GBDDR54800),微代码0xf000380,1x1。92TBINTELSSDSC2KG01,Ubuntu22。04。1LTS,5。18。12051812generic,QPLv0。1。21,accelconfigv3。4。6。4,ZSTDv1。5。2,RocksDBv6。4。6(dbbench),截至英特尔2022年9月的测试。 8380:1节点,2个第三代英特尔至强可扩展处理器(40核),CoyotePass平台,启用超线程,启用睿频,关闭SNC,总内存1024GB(16x64GBDDR43200),微代码0xd000375,1x1。92TBINTELSSDSC2KG01,Ubuntu22。04。1LTS,5。18。12051812generic,ZSTDv1。5。2,RocksDBv6。4。6(dbbench),截至英特尔2022年10月的测试。 10英特尔至强8380:截至英特尔2022年10月7日的测试。1节点,2个英特尔至强可扩展处理器8380,启用超线程,启用睿频,总内存256GB(16x16GB3200MTsDDR4),BIOS版本SE5C620。86B。01。01。0006。2207150335,ucode版本0xd000375,RockyLinux8。6,Linux版本4。18。0372。26。1。el86。crt1。x8664,YASKv3。05。07 英特尔至强CPUMax系列:截至英特尔2022年第36周的测试。1节点,2x英特尔至强CPUMax系列,启用超线程,启用睿频,SNC4,总内存128GB(8x16GBHBM23200MTs),BIOS版本SE5C7411。86B。8424。D03。2208100444,ucode版本0x2c000020,CentOSStream8,Linux版本5。19。0rc6。0712。intelnext。1。x8664server,YASKv3。05。07。 11第四代英特尔至强可扩展处理器优化电源模式开启时比关闭时系统节能可高达20,包括SpecJBB、PECINT和NIGNXkeyhandshake等特定工作负载。 12英特尔至强8480:Numenta截至2022年11月28日的测试。1节点,2个英特尔至强8480,512GBDDR54800,Ubuntu22。04Kernel5。17,OpenVINO2022。3,NumentaOptimizedBERTLarge,SequenceLength512,BatchSize1 英特尔至强Max9468:Numenta截至2022年11月30日的测试。1节点,2x英特尔至强Max9468,128GBHBM2e3200MTs,Ubuntu22。04Kernel5。15,OpenVINO2022。3,NumentaOptimizedBERTLarge,SequenceLength512,BatchSize1 13英特尔至强8380:英特尔截至2022年10月28日的测试。1节点,2x英特尔至强8380CPU,启用超线程,启用睿频,总内存256GB(16x16GB3200MTs,DualRank),BIOS版本SE5C6200。86B。0020。P23。2103261309,ucode版本0xd000270,RockyLinux8。6,Linux版本4。18。0372。19。1。el86。crt1。x8664 集成HBM的英特尔至强CPUMax系列:英特尔截至2022年10月28日的测试。1节点,2x英特尔至强Max9480,启用超线程,启用睿频,总内存128GBHBM2e,BIOSEGSDCRB1。DWR。0085。D12。2207281916,ucode0xac000040,SUSELinuxEnterpriseServer15SP3,Kernel5。3。18,oneAPI2022。3。0 含DDR的英特尔数据中心GPUMax系列主机:英特尔截至2022年10月28日的测试。1节点,2个英特尔至强Max9480,启用超线程,启用睿频,总内存1024GBDDR54800128GBHBM2e,内存模式:扁平,HBM2e未使用,6个英特尔数据中心GPUMax系列,BIOSEGSDCRB1。DWR。0085。D12。2207281916,ucode0xac000040,Agamapvcprq54,SUSELinuxEnterpriseServer15SP3,Kernel5。3。18,oneAPI2022。3。0 含HBM的英特尔数据中心GPUMax系列主机:英特尔截至2022年10月28日的测试。1节点,2x英特尔至强Max9480,启用超线程,启用睿频,总内存128GBHBM2e,6x英特尔数据中心GPUMax系列,BIOSEGSDCRB1。DWR。0085。D12。2207281916,ucode0xac000040,Agamapvcprq54,SUSELinuxEnterpriseServer15SP3,Kernel5。3。18,oneAPI2022。3。0