一、全新的Zen4内核:前端大变、不一样的AVX512 按照AMD的官方数据,Zen4相比于Zen3,同等性能下功耗可降低至多62,同等功耗下性能可提升至多49! 今天,我们就来深入了解一下Zen4架构、平台的革新之处,看看如此巨大的提升是从而来的。 先从Zen架构的历史讲起 Zen4已经是AMDZen系列架构的第四代(ZenZen算作一代),对比来看它的改革、提升幅度都不是最大的,更多的是在Zen3基础上的一次深度优化增强,并在新工艺的加持下大幅提升频率,最高加速频率不但首次突破5GHz,而且跨越性地达到了5。7GHz! 对比四代架构,初代Zen的变革、提升幅度最猛(当然主要是推土机实在太弱了),Zen2是一次优化升级,尤其chiplet设计奠定未来基础,Zen3则是再一次革命性的大变,19IPC提升也非常感人,Zen4再来个小步快跑就非常符合情理和逻辑了。 按照AMD的说法,Zen4架构的设计目标有三个方面: 一是性能,IPC(每时钟周期指令数或同频性能)和频率提升幅度都要达到两位数(超过10); 二是延迟,通过增大二级缓存、改进缓存有效性,大幅降低平均延迟; 三是能效,在整个TDP(热设计功耗)范围内,显著降低动态功耗。 为了达成以上目标,Zen4对整个微架构体系进行了升级优化,包括前端、执行引擎、载入存储单元、缓存、指令集等等,后边我们会一一讲到。 整体而言,Zen4架构的核心升级点包括:改进分支预测、增大OP指令作缓存、增大指令退役队列、增大整数浮点寄存器文件、加深核心缓冲吞吐、浮点单元支持AVX512指令、改进载入存储单元、增大二级缓存。 前端部分变化较大,这里包括指令缓存、分支预测、解码器、指令缓存、微指令队列等模块。 Zen4架构重点改进了分支预测部分,包括每时钟周期预测两个跳转分支、一级缓存BTB(分支目标缓冲)增大50达到1。5K条目、二级缓存BTB扩容从6。5K略增至7K。 另外,指令缓存(OpCache)增大了约68达到6。75K条目,每时钟周期可以完成多达9个宏指令(增加1个)。 不变的则是解码器每时钟周期发出4条指令、微指令队列每时钟周期分派6个整数浮点指令。 执行引擎部分变化较小,尤其是每时钟周期10次整数、6次浮点的指令分派保持不变。 指令退役队列或者说ROB(重排序缓冲)从256条目增大25至320条目,整数寄存器从192个增至224个,浮点寄存器从160个增至192个,缓存与核心之间的吞吐能力也提升了。 载入存储单元部分,载入队列从72个增大至88个(22),存储队列维持64个不变,二级缓存DTLB(数据页表缓冲)从2K条目增大了多达50至3K条目,另外还减少了数据缓存端口的冲突几率。 也许有同学会问,很多模块都是不断增大、再增大,为什么不一步到位,从设计之初就做个大容量呢? 一方面,谁也无法精准预测每个模块多大容量下效率最好,而且不同模块之间需要彼此协调配合; 另一方面,更大容量意味着更多晶体管、更大核心面积、更高功耗、更高成本,需要在性能、能效之间做出妥协、寻求平衡。 缓存体系也做了优化,尤其是二级缓存,不但容量翻了一番,每核心来到1MB,还提升了速度。 同时,从二级缓存到三级缓存、从三级缓存到内存,都支持更多命中失败(outstandingmiss),可以减少流水线的停顿,增加缓存回填带宽,提升整体效率。 不过整体缓存架构没变,一级缓存依然是32KB32KB的每核心容量组合,三级缓存则继续每8个核心一组共享32MB。 AVX512指令集或许是大家对Zen4最感兴趣的地方之一,毕竟在以往这是Intel处理器的专属技术,而且争议非常大,有人觉得它非常有用,有人觉得它只是徒增功耗,甚至成为极限烤机专用 Zen4支持的AVX512并非直接将Intel那套技术照搬过来(也不允许),而是选择了不一样的实现方式。 Intel处理器执行AVX512指令时,是完整的512bit通道(这也是该指令集命名的来源),但是AMD走的是256bit通道,也就是砍了一半,因此遇到512bit的指令就需要拆分成两个256bit指令来执行。 事实上,AMD推土机家族、Zen家族在执行AVX2256bit指令的时候,也是拆分成两个128bit。这都是一脉相承的 AMD表示,这么做可以节省芯片面积,并且避免执行AVX512指令时发热过大、频率下降的情况出现(峰值性能确有轻微损失),因为真正长达512bit的指令并不多,就像以前256bit的指令不够多。 Zen4支持的AVX512指令一览并不是把Intel的全都搬了过来,而是选择性地加入,除了一些基础指令,特别值得注意的是用于AI加速的VNNI、BF16,这也是Intel之前宣传的重点。 VNNI是面向AI模型推理的矢量指令,可将多个8bit或16bit整数串联成512bit,提升卷积神经网络常用的MAC(乘法累加)的速度。 另一个是BF16,面向AI加速,将双精度浮点FP32中的23位小数减少到7位,并保留1位符号、8位指数,结果与FP32相比范围相同,只是精度较差,但仍远高于单精度FP16。 按照AMD的说法,加入AVX512指令集后,Zen4架构的FP32浮点推理多线程性能可提升1。31倍,VNNIINT8整数推理多线程性能可提升2。47倍! 另外,Zen4还增加了一些虚拟化、安全性方面的新指令,就不赘述了。 以上是Zen4、Zen3的具体变化对比,可以看到其中不少都维持不变,其他很多则只是数量容量上的扩充,因此说Zen4就是个放大优化版的Zen3也没什么毛病。 值得注意的是,Zen4二级缓存、三级缓存的延迟甚至还略微加大了。 AMD宣称,Zen4IPC平均提升了13,这是在固定4GHz八核心情况下,通过22个项目对比Zen3得出的几何平均结果。 当然不同项目的变化幅度差异很大,比如说CPUZ单线程只提升了1(所以这个测试项目跑分变化不大),寒霜引擎游戏、《GTAV》、PUBG吃鸡、CineBenchR23单线程这些项目提升也有限。 wPrime1024M是变化最大的提升幅度达惊人的39,另外像是DolphinWeb测试和《看门狗:军团》、《F12022》、《杀出重围:人类分裂》、《地铁:离去》等游戏的提升也很喜人。 13的提升进一步划分,可以看到前端架构改进带来的提升幅度最大,其次是载入存储单元、分支预测单元,而来自执行引擎、二级缓存的贡献相对较小。 这和前边架构分析的变化幅度是相符合的。 IPC提升之外,锐龙7000系列的频率也达到了前所未有的高度,旗舰锐龙97950X最高可以加速到5。7GHz(还有个5。85GHzfMax频率但官方一直保持缄默)。 当然,5。7GHz的频率只有单核心加速可以做到,AMD也公布了锐龙97950X在不同核心线程下的最高加速频率,可以看到2核心可以到5。6GHz,8核心可以接近5。4GHz,16核心全开也能到5。2GHz。 13IPC提升,加上频率拉到最高5。7GHz,锐龙7000的单线程性能提高了最多29。 一个很容易被忽略的点,就是锐龙7000系列支持Eco模式,运行在更低的TDP,比如170W的可以低至105W或者65W,105W的可以低至65W。 AMD宣称,锐龙97950X65WEco模式下的性能,依然可以超过正常的锐龙95950X。 Eco模式未来会集成在主板BIOS的超频模块,可一键开启,还会集成在锐龙Master软件中。 有趣的是,得益于新的架构和工艺,Zen4单个核心加二级缓存总面积仅为3。84平方毫米,相比于Intel7工艺的12代酷睿的7。46平方毫米,小了几乎一半,能效则高了几乎一半。 二、全新的IODie:首次加入GPU、6nm新工艺给力 Zen2架构首次引入了chiplet设计,一般称之为小芯片、芯粒,一直延续至今,包括一两个CCD、一个IOD,前者包括CPU核心、缓存,后者包括各类控制器和输入输出,类似传统双芯片组的北桥。 Zen4CCD部分从台积电7nm升级为台积电5nm工艺,IOD部分则从GF12nm跃进到台积电6nm,自然有利于提高集成度、控制面积。很大程度上可以说,IOD这次的变化甚至比CCD还要猛。 首先,Zen4IOD首次集成GPU图形核心,而且用上了最新的RDNA2架构,堪比移动端的锐龙6000UH系列处理器,桌面APU都还没有这个待遇。 首次集成DDR5内存控制器,最高标准频率5200MHz(还可以继续超频),甚至还支持ECC(是否开启取决于主板)DDR4确实没了,不要再想了。 首次集成PCIe5。0控制器,可提供28条通道,可拆分为一路x16、三路x4。 首次支持USBTypeC接口,支持USBBIOSFlashback,可通过U盘和USB接口直接刷新BIOS,现在不少高端主板支持,以后就可以作为标配了,方便之极。 此外,InfinityFabric(IF)高速互连总线也得到了优化,带来了新的FCLK(IF总线)、UCLK(内存控制器)、MCLK(内存)频率比例,后边内存环节细讲。 Zen4IOD集成的GPU非常迷你,只有两个CU计算单元(128个流处理器)、四个ACE异步计算引擎、一个HWS硬件寄存器,打游戏什么的就别想了,它只是个亮机卡,用途有二: 一是作为基本的显示和视频输出,给那些不需要独显、只需小规模集显的环境,比如商务办公、商业嵌入式、CAD、CAM等领域。 二是作为备用显示设备,在独立显卡故障的时候,提供一个进入系统、排查问题的途径。 规格方面倒是挺齐全,尤其是显示与多媒体,支持H。264、H。265(HEVC)视频编解码,AV1视频解码,DisplayPort2。0UHBR10DSCHDR(AN独显都还没有呢),HDMI2。1HFR48GbpsFRLDSCHDR10VRR,USBCDPAlt模式,4K60,甚至还支持混合显示,组建个HTPC非常趁手。 锐龙7000处理器内部组成示意图,还是老样子,两个CCD搭配一个IOD,最多16核心,当然也可以一个CDD搭配一个IOD,最多8核心。 值得一提的是,CCD对IOD每时钟周期的写入仍然是16Byte、读取仍然是32Byte,因此单个CCD的情况仍然存在带宽减半的问题,还好实际性能不受影响。 Zen4CCD部分面积仅为70平方毫米,相比Zen380。7平方毫米缩小了13。3,但晶体管数量增加了足足56。6,从41。5亿个来到65亿个,集成密度超过9280万个平方毫米,增加了超过80! Zen4IOD部分面积122平方毫米,和上代125平方毫米相差无几,但晶体管从20。9亿个增加到34亿个,增幅达62。7,集成密度则增加了66。7。 三、全新的AM5接口:战至2025年 Intel经常被诟病科技以换接口为本,AMD则良心的多,所以这次Zen4架构换接口,绝对是一件大事。 AMD的一个AM4接口已经用了6年时间不但贯穿整个Zen家族历史,最早可以追溯到2016年的第七代APUBristolRidge,那时候的CPU架构还是推土机家族呢。 这么长的时间里,AM4接口经历了五代CPU架构、4代制造工艺,覆盖超过125款处理器和500款主板,在整个x86历史上也是无出其右者了。 由于新技术、新形势的需要,AMD迎来了全新的接口AM5,变化前所未有: 首次从PGA针脚式改成LGA触点式,一如Intel多年来的设计,共有1718个触点,再也不用担心拔出散热器带出处理器了,但主板插座要更小心对待,避免针脚弯折。 最大功耗空间放宽到230W,为超频和未来升级留足余地。 首次支持DDR5内存、PCIe5。0总线,下次再变应该要到DDR6内存了,官方承诺新接口规划支持到2025年乃至更远。 惊喜的是,无论处理器封装尺寸,还是主板插座尺寸和孔距,AM5全都保持不变,AM4平台散热器可以继续正常使用,从而降低升级成本。 AM5接口在供电方面也做了大量的改进设计,包括增强全平台电源管理的通信总线,在多个板载调节器之间用于持续监控电压、电流、温度、功耗的高速双向通信,用于系统健康状态监控的的电压调节器,优化多种负载条件下省电的扩展电源状态定义。 锐龙7000系列处理器提供三种TDP级别,分别为65W、105W、175W,它们各自对应的插座最大允许功耗、峰值电流、稳定电流各不相同。 比如TDP170W的顶级型号,插座功耗可承受230W,峰值电流可达225A,持续电流也有160A。 当然这都是极限值,一般情况根本碰不到。 AM4平台到AM5平台的变化,说白了就是锐龙7000相比锐龙5000的变化。 四、全新的DDR5内存:EXPO一键超频、注意新频率比例 Zen4架构是AMD第一次支持DDR5内存,而且不同于Intel1213代酷睿同时兼容DDR5DDR4,AMD直接抛弃了DDR4。 事实上,移动端Zen3架构的锐龙6000UH系列就是这么干的。 这么激进是相当考验勇气的,需要提前N年预判内存行业变化,准确切入,一旦碰上新内存性能、普及问题,可能会遭遇灭顶之灾。 还好,DDR5经过第一代产品的铺垫,性能优势正在展现,价格也逐渐趋于主流合理化。 除了常规支持DDR5,AMD这次还带来了EXPO技术,对标IntelXMP,简单说都是一键超频。 搭配锐龙7000处理器、AM5600系列主板,AMDEXPO可以实现对DDR5内存的一键超频,并提供完整的超频参数设定,玩家可以自由调节。 官方号称,EXPODDR56000对比JEDECDDR55200,可以在1080p分辨率下获得最高11的性能提升,同时延迟降低到大约63ns。 其中,《CSGO》性能提升可达11,《德军总部:新血脉》可有7,《F12021》、《英雄联盟》可得6,《GTAV》能获益5。 目前已支持AMDEXPO技术的内存品牌包括威刚、海盗船、金邦、芝奇、金士顿,首发就会推出至少15款产品,预设频率起步就有6000MHz,最高达到6400MHz。 AMD还强调,EXPO技术完全免费授权,不会向主板、内存厂商收取任何费用。 AMD还要求内存厂商,所有符合EXPO标准的内存产品,必须提供一份详细的报告,包括组件、完整时序表、软硬件稳定性信息等等,方便玩家识别选购。 如果你要对内存进行超频,注意这次有一个特别的变化。 Zen3时代,IF总线频率FCLK、内存控制器频率UCLK、内存频率MCLK需要保持在1:1:1,也就是完全同频,才能获得最佳性能,甜点内存频率为DDR43600。 Zen4时代,IF总线频率设置为自动就行了,只需保持内存控制器、内存同频即可,IF总线与内存的分频则固定为2:3。 官方支持最大内存频率为DDR55200,此时对应的默认IF总线频率为1733MHz。 最佳内存频率是DDR56000,此时RAM内存频率3000MHz、IMC内存控制器频率3000MHz、IF总线频率2000MHz。 当然,如果你需要的是更高内存带宽,就不必在意这套规则,单独拉升内存频率就好了。 内存频率超过6000MHz之后,内存控制器、内存频率比例将切换到1:2,IF总线频率则会在18502100MHz之间波动。 五、全新的600系芯片组:首次至尊版、双芯片之前搞错了 首先吐槽一下,AMD锐龙时代的主板芯片组命名直接模仿Intel的套路,并截胡竞品的后路,导致名字过于接近,非常难以识别,着实闹心。 最典型的,B550是AMD的,B560是Intel的 Zen4时代,AMD芯片组进入600系列,并首次迎来Extreme(至尊版),包括X670E、B650E,还有普通的X670、B650。 X670E、X670已经随同第一批处理器上市,B650E、B650则将在10月份跟进。 之前我们曾误以为X670、B650是单芯片,X670E、B650E是双芯片,其实并非如此。 事实上,X670E、X670都可单可双,双芯片时通过PCIe4。0x4通道再串联一个以提高扩展性,B650E、B650则都是单芯片。 最核心的区别,就是E系列显卡、M。2SSD都支持PCIe5。0,非E系列显卡、M。2SSD只有其一支持PCIe5。0。如何设定,就看主板厂商的选择了。 具体来说,锐龙7000处理器支持28条PCIe5。0,其中16条用于显卡、8条用于NVMeSSD(可拆分为两组x4)、4条用于连接芯片组。 支持四个USB3。010Gbps(包括C口),和一个通用目的USB2。0,就是USBBIOS刷新之用的。 X670E、X670支持12条PCIe4。0,可配置给WiFi网卡、蓝牙、NVMeSSD等设备。 支持8条PCIe3。0,可以有五种不同配置:8条PCIe3。0、6条PCIe3。0加2个SATA6Gbps、4条PCIe3。0加4个SATA6Gbps、2条PCIe3。0加6个SATA6Gbps、8个SATA6Gbps。 USB接口有固定的8个USB3。010Gbps、12个USB2。0,剩下的可选三种不同配置:2个USB3。120Gbps、1个USB3。120Gbps加2个USB3。010Gbps、4个USB3。010Gbps,总带宽都是40Gbps,等于一个USB4。 如果再串联一个X670E或者X670,上述扩展直接翻倍,具体配置就更加灵活了。 B650E、B650支持8条PCIe4。0、4条PCIe3。0,后者也可配置为2条PCIe3。0加2个SATA6Gbps、4个SATA6Gbps。 USB接口固定支持4个USB3。010Gbps、6个USB2。0,还可选1个USB3。120Gbps或2个USB3。010Gbps。 六、结语:承上启下奠定未来 展望未来,Zen43DVCache缓存版、Zen4c都在路上。 Zen43DVCache就像锐龙75800X3D那样加入堆叠缓存,游戏性能必将再次大杀四方,预计有锐龙97950X3D、锐龙97900X3D、锐龙77800X3D三款型号。假如每个CCD都堆叠64MB缓存,总缓存最多可达208MB。 Zen4c则用于EPYC霄龙产品线,面向高密度云服务和计算领域,使用台积电4nm工艺,最多可达128核心256线程,而且也会叠加3DVCache缓存,总容量预计达到恐怖的1152MB。 Zen5家族也风雨欲来,包括4nm的Zen5、Zen53DVCache,3nm的Zen5c。 据说,Zen5会非常激进,整体架构推倒重来,升级力度自然远超Zen4,再加上新工艺的辅助,着实令人期待。 一如前文所述,Zen4并没有彻底改变,而是在Zen3的基础上优化完善,打通其任督二脉,加入全新的DDR5内存、PCIe5。0总线,再辅以台积电5nm工艺的晶体管密度、频率红利加持,成就新一代平台。 可以说,Zen4的主要使命就是承上启下,深化Zen3,迎接Zen5!