范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

神之飞跃!RTX40架构技术产品深度解析价格大有玄机

  【Ada架构初探:结构基本不变 规模暴涨】
  NVIDIA近些年的GPU架构代号,都来自历史上如雷贯耳的著名物理学家,比如Tesla特斯拉、Fermi费米、Kepler开普勒、Maxwell麦克斯韦、Volta伏特、Pascal帕斯卡、Turing图灵、Ampere安培……
  GPU核心编号前缀一般都是字母"G"(代表Graphics)和代号首字母的组合,比如GT、GF、GK、GM、GP、GA。
  当然,Turing系列有些特殊,因为GT已经用过了,所以改成了TU。
  RTX 40系列的架构代号、编号则都有些不同。
  "Ada Lovelace"(以下简称Ada),即阿达·洛夫莱斯,原名奥古斯塔·阿达·拜伦(Augusta Ada Byron),著名英国诗人拜伦之女,数学家,计算机程序创始人,为计算程序拟定了"算法", 建立了循环和子程序的概念,写作的第一份"程序设计流程图"被珍视为"第一位给计算机写程序的人",本人也被称为"程序员之母"。
  为表纪念,美国国防部将耗费巨资、历时近20年研制成功的高级程序语言命名为Ada语言,被公认为是第四代计算机语言的主要代表。
  GA的编号方式也刚刚用过,所以这一代都是AD系列。
  Ada AD10x系列核心采用NVIDIA单独定制的TSMC 4N工艺制造,其中 旗舰核心AD102集成最多763亿个晶体管。
  这是三星8nm工艺GA102 283亿个的足足2.7倍,但核心面积反而从628平方毫米缩小到608平方毫米,晶体管密度高达1.255亿个/平方毫米,提升了超过1.7倍。
  仅仅四年前的Turing RTX 20,台积电12nm工艺,也才186亿个晶体管,每平方毫米还不到2500万个,实在令人感慨技术进步之快。这部分会在后边详谈。
  新的Ada架构全面升级了SM流式多处理器、RT光追核心、Tensor张量核心、视频编解码引擎,还带来了真正强大实用的光流处理器(OFA),但这一次彻底去掉了NVLink总线模块,永别了SLI。
  AD102核心共有18432个CUDA核心(分为12组GPC/72组TPC/144组SM)、576个第四代Tensor Core张量核心、144个第三代RT Core光追核心、576个纹理单元、192个ROP单元、18MB一级缓存、96MB二级缓存、36MB寄存器文件。
  其中,一级缓存增大了71%, 二级缓存不但是Ampere架构的多达16倍,而且经过彻底重构 ,对于任何应用都能带来明显提升,尤其是光追中的路径追踪等复杂操作会获益匪浅。
  或许,这就是NVIDIA敢于把产品显存位宽使劲往下砍的原因,大容量、高带宽的二级缓存可以有效弥补带宽,就像AMD Infinity Cache无限缓存,只是后者需要大容量才能提现优势,Ada这边做到96MB也不算太大,显然带宽高得多(暂无具体数据)。
  值得一提的是, AD102核心有288个FP64双精度浮点核心(每组SM 2个),浮点性能是FP32的1/64 ,专门用于处理FP64代码,包括FP64张量核心代码。
  GPC依然是NVIDIA GPU的顶层组成单元,所有的关键图形单元都在这里,结构组成上整体而言Ampere架构没啥不同。
  每个GPC包括一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元)、六组TPC,而每个TPC又包括一个多边形引擎、两组SM。
  SM单元的内部组成也和Ampere如出一辙 ,可以分为四个部分(分区),以及128KB一级数据缓存/共享内存、一个第三代RT光追核心。
  每个分区内又有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个第四代Tensor张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。
  RTX 40系列采用了与台积电定制优化的4N工艺,得以集成比GA102核心多70%的CUDA核心,成就了史上最复杂的GPU芯片,还大大提升了运行频率, RTX 4090可以加速到2.52GHz,是N卡史上最高的。
  与此同时,能效也大大提升,RTX 4090功耗和RTX 3090 Ti完全持平,能效因此达到了其2倍之多。
  【RTX 40核心技术:光追再造巅峰、DLSS3革命性跨越】
  一、光线追踪:两大新引擎加速
  光线追踪,无疑是GPU历史上的一大变革,而引导这一变革的,正是NVIDIA,Ada上已经发展到了第三代,有效光追算力达到191TFlops(每秒191万亿次运算),是上一代产品的2.8倍。
  Ampere架构的第二代RT核心里,BVH加速的包围盒碰撞引擎(上图中左侧方框),执行光线-三角形碰撞(求交)检测加速的是三角形碰撞引擎(上图中右侧三角形部分)。
  Ada架构的第三代光追核心,又增加了两个新的引擎。
  一是 Opacity Micromap Engine ,上图左下角的带树叶三角形部分。
  它会评估不透明微遮盖,加速Alpha遍历,大大减轻着色器的工作量,号称光线-三角形碰撞吞吐性能、Alpha遍历性能都提升2倍。
  它可以让开发人员为物体、环境加入更多细节,更方便描述不规则形状或半透明物体,比如叶子、火焰、篱笆等。
  比如面对一片叶子,以前需要对整个区域的所有三角形区域,进行同样的光线遍历操作,但不同区域是不一样的,有的整个三角形区域内都是叶子,有的完全没有,有的占一部分。
  Ada架构可以对这些不同区域进行分别处理,避免重复和浪费工作量。
  在游戏中,以专门开发的《Portal RTX》为例,应用该技术后,G-Buffer缓冲填充速度可加快30%,帧率可提升30%。
  二是 Micro-Mesh Engine ,上图右下角的复合三角形部分。
  它可以动态生成微网格,以产生额外的几何图形,在处理复杂几何物体、环境光线时,提升几何图形的丰富度,并大大降低BVH的创建时间和存储成本。
  你可以把它想象成一个立体版的曲面细分(Tessellation)。
  NVIDIA举了三个例子:创建11:1的珠宝盒,需要15.3万个微网格、1100万个微三角形,BVH创建速度可加快8.5倍,存储空间缩小6.5倍。
  创建14:1的珊瑚蟹,需要1.7万个微网格、160万个微三角形,BVH创建速度可加快7.6倍,存储空间缩小8.1倍。
  创建28:1的陶鼎,需要17.5万个微网格、5700万个微三角形, BVH创建速度可加快超过15倍,存储空间缩小20倍。
  不止是游戏,微网格位移在内容创作中也可以大大加速,目前已经得到了 Adobe、Simplygon 两家企业的支持。
  说了半天,来感受下第三代光追的惊人效果,分别来自首批优化到位的《赛博朋克2077》、光追重制版《Portal RTX》、《Racer RTX》。
  其中, 《赛博朋克2077》可对每个像素执行635次的光追计算来确定光照,比四年前的首批光追游戏,比如39次的《战地5》,增加了多达16倍。
  二、着色器执行重排序(SER):化凌乱为整齐
  NVIDIA宣称,着色器执行重排序(SER)技术在GPU中的引入,堪比乱序执行技术在CPU中的引入,是GPU历史上的又一伟大创新。
  这是不是吹嘘?还真不是。
  简单的说,光追需要光线面对不同物体、环境的多次反射、折射,处理强度不同的负载,着色器面对的工作量是复杂多变的,往往有的已经完成了,有的还在执行,需要等待。
  SER就是通过即时重新安排着色器的负载,使之恢复均衡,从而提高执行效率,更好地利用GPU资源。
  还不明白?来看个直观的例子。
  假设一组平行光线照射舞台、木墩、狗狗、墙面、天花板,第一次形成的光追负载是非常规律有顺序的,可以轻松处理。
  但是光线遇到物体后向不同方向反射,第二次与物体相交,形成的光追负载就更多、更复杂、更凌乱。
  SER这时候介入,按照不同类别进行二次排序,着色器就可以像第一次那样有序地处理负载了。
  按照NVIDIA的说法, SER可以为光追带来最高3倍的性能提升,整体游戏性能提升也可达25%。
  还是以《赛博朋克2077》、《Portal RTX》、《Racer RTX》为例,性能可以分别提升44%、29%、20%。
  三、光流处理器(FOA)和DLSS 3:4倍性能就是这么来的
  DLSS 3部分是NVIDIA着墨最多、宣传最到位的,毕竟带来的性能提升最直观、最明显,我们也多絮叨絮叨。
  DLSS技术的初衷很简单,就是弥补光追带来的性能损失,毕竟这东西太耗资源了,二十多的帧率下,再好看的画面也是白费。
  DLSS技术前两代的原理是超分辨率,也就是低分辨率渲染、AI增强、高分辨率输出,性能可以轻松提升2倍之多,光追游戏也能流畅玩儿。
  AMD FSR、Intel XeSS也都是同样的原理,可以说NVIDIA一直走在友商之前。
  DLSS 3几乎是推倒重来,尤其是基于强大的光流加速器(OFA),可以通过AI生成帧画面,插入常规渲染帧之间。
  优化到位的游戏性能可提升多达4倍,普通游戏也有2倍,相当恐怖的。
  同步开启Reflex技术,可以将响应速度提升最多2倍,电竞类游戏延迟低于10ms。
  另外,由于DLSS 3生成帧在GPU上是作为后处理执行的,因此即使游戏受到CPU性能限制,前期渲染能力跟不上,也不会遇到瓶颈,依然能从中获得显著的性能提升,尤其是物理计算密集型游戏或大型场景游戏。
  当然,DLSS 3不是单一技术,而是软硬件结合的一整套方案, 包括硬件端的光流加速器(算力305Tops)、第四代Tensor张量核心(1.4PFlops算力)、NVIDIA超级计算机平台(AI算力1EFlops),包括软件端的AI帧生成(提升帧率)、AI超分辨率(提升帧率)、NVIDIA Reflex(提高响应降低延迟) ,是共同协作的成果。
  需要注意的是, DLSS 3并不会取代DLSS 2.x,而是将其作为一个子集(超分辨率部分),可以一起工作,联合提升性能。
  具体来说, DLSS 2.x是生成单个像素点来提升画质,DLSS 3的革命性之处则在于,它直接生成全新的完整帧画面,插入渲染帧画面之间,可以说就是"插帧"。
  再详细一点,它使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,就能计算生成出新的一帧,这在实时游戏渲染中是首次实现。
  其实没有光流加速器,传统游戏引擎一样可以通过运动矢量进行建模,实现帧生成,但最大问题在于面对粒子、反射、阴影、光照等元素时,容易出现渲染不精确、视觉异常,尤其是在光追下。
  将运动矢量与光流处理结合起来,就可以得到精确的运动模拟,正确处理阴影等画面效果。
  结合帧生成、超分辨率缩放技术,DLSS 3可以在传统渲染器渲染的画面之外,"凭空"再造出7份画面,也就是它能让你看到的7/8的画面像素,都是额外生成的!
  这就是AI的力量,或许正是未来的趋势。
  刚才说了性能大幅提升,那么这种AI帧生成,会不会画面上的错位、模糊等问题?上边是NVIDIA举的两个例子。
  黄仁勋也曾表示, DLSS 3生成的像素比GroundTruth(真实值)还要好看,也比过去计算的像素更好看,因为DLSS 3生成的像素不是凭空捏造,而是客观的,其训练学习的基础是16K分辨率的超清图像,所以得出的像素非常美丽,近乎原生,也能添加更好看的色彩。
  至于实际效果如何,后续看评测吧。
  硬件支持方面, DLSS 3帧生成必须RTX 40系列才能支持 (RTX 30/20系列理论上也行但性能很弱),DLSS 2超分辨率则在RTX 40/30/20系列上都可以,另外Reflex支持GTX 900系列以来的所有型号。
  显然,想要最佳体验,还得最新的RTX 40系列。
  游戏支持适配方面,NVIDIA也提供了极大的便利。DLSS 3/2的大部分引擎数据是相通的,前者只是多了一个Reflex Maker,另外整个框架体系也是一体的。
  DLSS 3首发就已经/即将支持36款游戏、3款游戏引擎、2款应用,其中包括《黑神话:悟空》、《逆水寒》、《永劫无间》、《仙剑奇侠传7》等国产游戏,引擎分别是寒霜、Unity、虚幻4/5。
  四、AV1编码:8K60视频完美了
  视频编解码一直是GPU的重要工作,可以大大减轻CPU负担,提升编解码速度。
  GeForce RTX 40系列GPU升级到了第八代NVENC编码器,首次加入对AV1格式的支持,12GB或更大显存型号还是双编码器的豪华配置,可以处理单条8K/60视频,或者四条4K/60视频。
  AV1格式正在桌面端、移动端得到快速普及,Intel Arc A系列显卡此前就已经在桌面端首发支持AV1编解码,但现在还谈不上影响力。
  GeForce RTX 40系列GPU则带来了完整的AV1生态方案,编码API支持NVIDIA、Chrome、FFmepg、Windows,App编辑器支持DaVinci Resolve、Discord、OBS、voukoder、剪影,视频平台支持Discord、YouTube(B站/爱奇艺们加油),播放器支持Chrome、Discord、VideoLAN、Windows。
  NVIDIA宣称,AV1的编码效率相比流行的H.264高出多达40%,同样画质下码率更低,同样码率下画质更好。
  双编码器的产品上,NVIDIA会让二者分别负责画面的上下部分,各自处理完毕后再综合,编码效率可以提升2倍甚至更多。
  同时, GeForce RTX 40系列GPU还首发了第五代NVDEC解码器,支持MPEG-2、VC-1、H.264、H.265、VP8、VP9、AV1格式的解码硬件加速,完整支持8K/60视频解码。

超三分之一亚马孙雨林退化,是之前估计的两倍除了森林砍伐的影响外,人类活动和干旱已经使剩余亚马孙雨林的三分之一以上退化。图片来源美国有线电视新闻网发表在最新一期科学杂志上的研究显示,人类活动和干旱可能已经使超过三分之一的亚马高血压保健处方高血压病是威胁中老年人健康的头号杀手。严格防治高血压病及其并发的心脑血管病如心绞痛心梗和中风等,对高血压病人的健康长寿格外重要。特制定高血压保健处方三个三,即三个半分钟三个半小时和醒狮拜年!湖南科技大学研究生张哲亮醒狮队登上两家卫视晚会2021级建筑与艺术设计专业研究生张哲亮是龙狮运动国家三级教练员裁判员。为打破世俗偏见呼吁男女平等,张哲亮与师傅余卫钊特别组建南兴合兴堂女子队,并在比赛中屡夺佳绩,获国家级金奖银奖预见2023刘永好中国经济发展底气和信心源自四个方面伴随着疫情防控措施优化,经济生活逐步恢复正常,可以预见,我们将迎来一个全新的2023年。金融界启程百位首席预见2023特别邀请新希望集团董事长刘永好先生,从企业家的角度解读中国经济人民艺起评从流浪地球2感受硬核科幻的重工业美学流浪地球系列作为近些年来中国科幻现象级大片,受到广泛关注。如果说流浪地球1标志着中国重工业科幻的起跳点,那么流浪地球2则代表目前中国重工业电影奇观制作水平,甚至媲美好莱坞大片。实际健康早闻(语音版)来啦!2023年2月2日要闻中疾控解读奥密克戎变异株CH。1。11月31日,中国疾控中心发布奥密克戎变异株CH。1。1相关科普文章。文章称,尽管CH。1。1变异株的免疫逃逸能力和传播优势进一步增强,导致突春运故事坚守小站42年老钱的最后一个春运22301次列车5道出发。春节后的第三天,外界气温逼近0度,伴随着凛冽寒风,一节节装载着粮食铁矿砂石等物资的货运列车朝着到发线5道驶去。在祁东西站的行车室内,6台电脑屏幕上红黄蓝绿这个春节,因为误吃老鼠药被家长误撞坠楼,孩子住进监护室来源大河健康报春节假期在河南省儿童医院外科监护室接连收治了因意外伤害入院的重症患儿孩子误服老鼠药陷入昏迷来自洛阳2岁大的患儿乐乐(化名)玩耍的时候突然开始恶心呕吐家长一开始以为是吃守护舌尖上的安全,珠海这个社区开展儿童食药安全普及活动如何确保食品安全,尤其是保障孩子舌尖上的安全令人关注。近日,珠海市梅华街道鸿业社区开展了一场少年儿童食品药品安全普及活动。这是该社区民生微实事项目儿童安全红绿灯计划内容之一。本次活安徒生童话和格林童话适合孩子看吗?安徒生童话和格林童话好像是小学生必读书,但真的适合孩子看吗?我小时候看过很多格林童话和安徒生童话,印象较深的名篇自不必说,也有很多忘得只剩名字了,比如安徒生的打火匣。年前网上活动,国足选帅土洋共同执教,是中国特色足球创新还是又整幺蛾子?国足选帅工作自年前就已经开始了,但到现在还一直难产,据说是因为足协预算捉襟见肘,请不起外教,又不甘心让本土教练上位,所以又提出特色足球创新,那就是让国奥主帅扬科维奇和李霄鹏共同担任
什么是真正的谈恋爱?这大概是我听过最好的回答余生的每一天,都是你在如今这个快餐时代,什么都来得快,去得也快,谈恋爱好像也变成了这般,有的人刚一分手,就有了新欢,循环往复,年复一年。我听过太多被辜负者的故事,有时候想起他们的故少年包青天3小蛮从郡主到傻丫头,面具戴久了再也摘不下来我叫小蛮,双喜镇里蛮不讲理咋咋呼呼的小蛮,我还有另一个身份柴丝言,大宋未来的皇后,也是前朝皇帝如今被封为郑王的玄孙女。从小我和太爷爷一起生活在京城城西的郊外,虽然我们有锦衣玉食的生江苏3大失败酒,在省内口碑不输洋河,然而到了外省竟没人喝我国的酿酒大省中,江苏是独树一帜的存在。也许是占尽了地理位置和气候条件的优势,江苏酿造的浓香型白酒速来饱受赞誉,同样是盛产浓香酒的地方,江苏的浓香酒似乎比四川和安徽还更受欢迎。作为顾家的5位女星,演技都比老公优秀,有人零绯闻,有人婚后大变样百花奖圆满结束。袁泉和朱媛媛成为当晚女演员中的最大赢家,分别斩获最佳女主和最佳女配。面对如此荣誉,本以为她俩会高调庆祝一番,结果却让人失望。获奖当天两人就玩起了失踪。7月30日当晚播2集,收视率轻松破1!分界线一出手,就给江苏卫视王炸纵观近几年的国剧市场,观众开始越来越喜欢接地气,烟火气十足地了剧,相比于那些浮夸或者脱离现实的剧,这类写实题材的剧,总能掀起观众心中的层层涟漪。像张若昀白鹿主演的警察荣誉,没有其他工作3年,存款10万,60的人做不到,他们是怎么做到的?工作三年,存款10万,在年轻人当中是什么水平呢?网络调查数据显示,至少有60的人做不到,也就是说,如果你做到了,你将处于前40。1hr最近网络上发起了一个调查,目的是为了了解当代青江苏人请客喝什么酒?首选不是洋河,而是这5款,酒质好不上头相信很多酒友都听过这样一句话,叫作铁打的茅五,流水的老三,不知道从什么时候开始,茅五泸变成了茅五洋,洋河是怎么成为白酒界最大的一匹黑马的呢?在解答这个问题之前,我们先来看看洋河的背三大岗位将告别铁饭碗,工作转为合同制,教师也在其中在我国关于铁饭碗的岗位竞争,无论是什么职业都非常激烈。很多同学在大学毕业以后,最开始也想在社会上碰碰运气,看有没有什么适合自己的工作,但真的从一堆工作中淘汰筛选出来后,发现工作还是解放军警告不是开玩笑,运油关键时刻,运油20正式亮相,助力中国空军歼灭一切来犯之敌。据环球网报道,在2022空军航空开放活动暨长春航空展新闻发布会上,空军发言人申进科大校表态称,中国新一代空中加油机运油20美媒发问谁是今夏最佳补强,绿军布罗格登被低估今天凌晨,美媒StatMuse晒出休赛期加盟老鹰的穆雷森林狼的戈贝尔尼克斯的布伦森开拓者的格兰特的头像照,并发问谁是休赛期最佳补强球员?引来热议,一起来看看球迷如何评论!TheCe添加辅食初期,宝妈容易犯的影响宝宝发育的5个误区,你中招了么大家好,我是张女子育儿!我闺蜜晓文家宝宝开始吃辅食后,闺蜜干了一件蠢事儿,让宝宝受罪不已。宝宝还不到6个月,闺蜜晓文就给宝宝吃辅食了,美其名曰,早点锻炼宝宝,宝宝发育的更好。闺蜜给