蛰伏二十余载,PC独显进入三国时代英特尔锐炫ARC新品详解
3月30日,英特尔正式发布英特尔锐炫ARC移动端独立显卡,代号Alchemist(炼金术士),英特尔首次面向消费端独显产品推出已经过了24年,在那之后英特尔独显产品开发就陷入了停滞转而专注核显开发。
在经过多年的技术积累,英特尔此前面向服务器市场推出了DG1显卡,今年正式面向消费端推出英特尔锐炫ARC独显产品,首批针对移动端推出的A系列产品包含锐炫357三个型号。
其中英特尔锐炫3主要面向主流游戏市场,锐炫5主要面向性能游戏市场,锐炫7主要面向发烧级硬核游戏。此次英特尔推出了移动端A系列的A350M和A370M产品。全新英特尔锐炫显卡支持XeSS超采样、完整的AV1硬件加速、SmoothSync抖动过滤、DeepLink技术,全方位覆盖游戏、创意设计、功耗控制等场景。
首款搭载英特尔锐炫ARC独显的是三星GalaxyBook2Pro轻薄本产品,这款产品获得英特尔Evo严苛认证,目前已经在海外市场正式上市。
未来借助英特尔在处理器市场上的份额优势,将会有大量搭载英特尔锐炫ARC独显笔记本产品上市。通过英特尔Evo认证的产品在续航和显示能力上也将得到进一步提升。
目前宏碁、华硕、戴尔、海尔、惠普、联想、微星、三星、英特尔NUC等品牌或者产品已经有推出锐炫独显笔记本的打算,通过锐炫独显,英特尔未来也可以整合自家产品,推出第一方英特尔笔记本。
配套的英特尔锐炫控制面板也随着英特尔锐炫独显产品的上市同步推出,这一控制面板集合了驱动自动更新、性能监控、性能调优、直播管理、游戏高光时刻生成、活动推广等功能,并且无需强制登录就可使用。
接下来了,我们通过详细的解析了解一下全新的英特尔锐炫ARC独立显卡的底层架构和技术亮点。底层架构
英特尔锐炫ARC独显产品基于英特尔XeHPG架构开发,核心采用内置XMX的Xe内核,包含Xe媒体引擎、Xe显示引擎以及Xe图形管线三大核心功能。
通过XeHPG微架构,英特尔锐炫显卡在开发过程中有很大的灵活性,渲染切片是XeHPG微架构的基本模块,每个XeHPG渲染切片包含4个Xe内核、4个光追单元、4个采样器、几何引擎、光栅引擎、HiZ引擎以及2个像素后端构成。
每个Xe内核中包含XMX矩阵引擎、XVE适量引擎、光追单元、采样器等,这些构成了一个完整的Xe内核,也是XeHPG微架构的基本运算单元,这与以往的执行单元EU概念有所不同,通过4个Xe内核构成的渲染切片,以不同组合方式就构成不同的SoC以此形成不同的产品形态。
英特尔锐炫显卡通过叠加渲染切片方式构成不同的产品线,最小为2个,最大为8个,通过不同形式的组合构成了各种各样的产品。针对光追和DX12Ultimate,XeHPG微架构也有很好的支持。
回到Xe内核上,每个Xe内核提供16个256位的XVE矢量引擎、16个1024位的XMX矩阵引擎,并配备192KB的共享一级缓存。XVE适量引擎用于执行传统的图像处理计算,XMX矩阵引擎则主要用于AI加速。
其中XVE矢量引擎每个时钟周期可以执行16个FP32操作、32个FP16操作以及64个INT8操作,专用的FP浮点执行接口和共享INTEM执行接口。XMX矩阵引擎每个时钟周期可以执行128个FP16BF16操作、256个INT8操作、512个INT4INT2操作。
XMX算力提升相比于传统的MAC或者进阶的DP4a是非常巨大的,我们知道MAC是图形中使用的基本SIMD矢量指令,每个时钟周期共执行8次并行运算乘法和8次并行加法。而DP4a则针对不需要32位精度的AI计算所做的优化,每个时钟周期共执行32次并行乘法、32次累加或每个周期总共64次操作,这比标准SIMDMAC提高了4倍的性能。
而XMX矩阵引擎通过将乘法累加4深度流水线化,将其提升到一个新的水平。与DP4a一样,每个操作数都被分成4个块,这些块被独立的相乘和累加每个阶段64个操作(由紫色图块显示)。通过4个阶段,每个时钟产生256次操作,这就比传统的32位SIMDMAC增加了16倍的性能。
XMX的提升最好的应用就是XeSS超采样抗锯齿技术,与传统高分辨率渲染相比可以在游戏中提供更高的性能,通过神经网络辅助运动矢量,从低分辨率渲染中生成精美的高分辨率图像,这有些类似英伟达DLSS。
目前XeSS超采样抗锯齿技术将在今年夏天正式到来,首批支持XeSS的游戏包括《古墓丽影:暗影》、《超级房车赛:传奇》、《幽灵线:东京》、《死亡搁浅》、《血猎》、《CHORVS》、《Arcadegeddon》、《杀手3》等14款游戏。
通过Xe媒体引擎,锐炫显卡支持多种主流格式的编解码器,包括H。265HEVC、H。264MPEG4AVC、VP9以及AV1。
英特尔是首个提供AV1的硬件编解码加速支持GPU提供商,这些格式的编解码可以以极低的处理器利用率完成。由于AV1出色的效率,未来AV1也将成为主流的视频格式,它相比于H。264和HEVC效率更高,可以以更低的带宽和更小的文件大小实现更好的画面质量,且AV1没有授权使用费。
英特尔锐炫显卡对AV1的硬编码能力相比于传统软编码在编码速度上提高了50倍,目前FFMPEG、Handbrake、AdobePremierePro、DavinciResolve、XSplit都已经集成了锐炫AV1硬编码的支持。
Xe显示引擎主要为当前阶段以及未来的显示技术打造,现阶段英特尔锐炫显卡支持HDMI2。0b、DP1。4a,DP2。010G也将支持。通过英特尔锐炫显卡,玩家可以享受2台8K60HDR或者4台4K120HDR的最高画面输出。
在游戏场景中,英特尔提供多项同步技术帮助玩家有着更好的体验,其中VESA标准AdaptiveSync防撕裂技术英特尔锐炫显卡提供支持。而SpeedSync这项新的技术,可以为游戏当前帧提供加速,SpeedSync通过关闭VSync并渲染帧的整体来达到低延时无撕裂的效果。
SmoothSync是英特尔推出的另一项画面优化技术,这项技术通过模糊两个撕裂帧的边界,来减少视觉失真以此让画面看起来更加连贯流畅。
性能表现
此次全新推出的英特尔锐炫独显产品共包含2种不同的SoC设计,代号分别为ACMG10和ACMG11,其中ACMG10共包含32个Xe内核和光追单元,16MB的L2缓存以及256位的GDDR6接口、16路PCIe4。0接口;ACMG11则包含8个Xe内核和光追单元,4MB的L2缓存、96位的DDR6接口、8路PCIe接口。两种芯片均包含2个Xe多功能编解码引擎和4个图像输出引擎。
有关频率问题,我们知道不同的频率要求电压和功耗也不一样,其实根据日常使用的场景,笔记本往往在不同负载场景下的频率功耗呈现一个动态分布状态。基于这种分布,英特尔锐炫显卡在分配参数是,往往设定一个有代表性的负载,再根据这个负载的频率、参数情况对显卡的频率进行定义。不同的平台有着不同的TDP,在更宽松的TDP限制下,时钟频率的分布范围也会整体提升。
因此,英特尔根据此划分出首批A系列的5款显卡产品,其中首发的锐炫3A370M包含8个Xe内核和光追单元、主频1550MHz、8GBGDDR664bit显存、TGP在3550W之间;锐炫5A550M则包含16个Xe内核和光追单元、主频900MHz、8GBGDDR6128bit显存、TGP在6080W之间;锐炫7A770M则包含32个Xe内核和光追单元、主频1650MHz、16GBGDDR6256bit显存、TGP在120150W之间。锐炫3产品已经正式上市,锐炫57则将在今年夏天正式上市。
在游戏表现上,首批上市的锐炫A370M显卡主要面向中高画质游戏,主打场景在1080P帧下的大型游戏。相比于96EU的Xe核显在帧率上有着60帧以上的表现。
而在《堡垒之夜》、《GTAV》等需要高帧率的游戏场景下,锐炫A370M中高画质下帧率超过90帧,已经达到一个流畅的水平。
创意生产场景下,和12代酷睿的集成显卡相比,在搭载A370M独立显卡的平台上,性能也有了显著提升。在视频编解码方面,以DavinciResolve为例,4KH。264转H。265的性能可提升多达60。而在AI相关功能上,例如AdobePromierePro里的两个应用场景,更是有翻倍的性能提升。
在创作场景下的提升,不光取决于显卡本身,同时还得益于英特尔全新的DeepLink技术带来的巨大提升。下面我们来看看DeepLink的工作原理。英特尔DeepLink技术
英特尔DeepLink技术区别于以往单纯动态功率共享,英特尔锐炫显卡在与英特尔12代酷睿处理器之间除了功耗的动态共享,还引入了超级编码和超级算力能力。
动态功率共享技术能在系统功耗的限制范围内,尽可能最大化释放CPU或GPU的性能。英特尔已经在这项技术上探索了很长时间。早在2016年,KobeLakeG时代,英特尔就推出了第一版动态功率共享,即在CPU裸片和GPU裸片之间动态分配功率。
现在12代酷睿和锐炫A系列独立显卡之间这项功能也得到进一步应用,在运行负载时,如果CPU更需要功率,功率会更多的分配给CPU,反之对GPU也是一样,最终目的是让这个负载有更好的性能。
第二项技术则超级编码技术,这项技术的初衷是为最终用户提升编解码效率。以前的编解码流程里,通常把编码工作放在一个显卡的编解码器上,编码效率成为了整个流程的性能瓶颈;而实际上现在的英特尔笔记本系统,例如搭载了12代酷睿处理器和锐炫A系列独立显卡的系统,集成显卡和独立显卡都有硬件编码能力。所以超级编码技术,就是同时运用两个显卡的编解码引擎,来大大提升编解码效率。
这种协作是通过OneVPL的API接口来实现的。OneVPL是一个跨平台的开放性框架,应用程序通过接口可以识别并调用平台上多个多媒体引擎,充分利用视频处理能力。当超级编码开始工作时,一组组解码后的原始帧通过特定的API函数被交给oneVPL,进而按组被分配到不同的多媒体引擎上,拷贝到相应的内存中缓存起来。不论每一组有多少帧,相应的集显或者独显的多媒体引擎会开始按照设定的格式编码。而OneVPL会完成后续的打包工作,把编码后的帧一组组拼接成最终视频来输出。这种并行处理,编码效率比单一显卡提升非常显著。
在算力提升上也有着与超级编码类似的逻辑,即尽可能地让整个系统都参与进来,并且合适的模块做合适的事,超级算力这项技术也是这样的逻辑。
搭载英特尔锐炫独立显卡的笔记本可以从独立显卡的算力中获益,但英特尔CPU的集成显卡中同样也提供了计算引擎。通过把负载合理的分配给不同的计算引擎,以此实现算力最大化。这其中就使用了OpenVino中的MLS框架来将算力进行最大化的实现。
MLS能智能的把负载分配给不同的算力模块,通过延迟敏感度、吞吐量、性能要求、功率消耗等应用或负载的特征帮助MLS做出决策,把负载分配给独立显卡、集成显卡或者CPU。
通过DeepLink几项关键的技术,在创作场景下,英特尔酷睿笔记本英特尔锐炫显卡的组合带来了性能的大幅提升。系统各个模块更加紧密的协作,让每一个模块的性能得到充分释放。基于这一理念,DeepLink将英特尔平台上各个模块有机结合,让整体效率更进一步。总结
英特尔在蛰伏多年,终于开启了独显之路,首批上市的独显产品主要针对移动端,凭借英特尔在处理器领域的强大占有率,未来英特尔锐炫独显产品也将成为继N卡、A卡后一支强大的力量,显卡市场将进入三国时代。在显卡市场价格高企的当下,英特尔的入局对于消费者来讲是件好事情,更多的选择也就意味着产品之间价格战将会打响。
对于行业而言,英特尔的ii方案既有利于英特尔对产品的整体把控,也让英特尔在开发者与合作伙伴之间提供了更进一步的一致性产品。
英特尔的下海,无疑会搅动独立显卡这个庞大的市场,未来这样的三国局面将如何发展,我们拭目以待。