深入解析NVIDIAGeForceRTX3000系列显卡

　　文/风望月
　　NVIDIA（英伟达）从8月到9月的新闻一个接一个的重磅：市值超过了Intel+AMD之和，到今天已经超过3400亿美元，另一个就是9月1日发布了基于NVIDIA Ampere架构GPU的GeForce RTX 30系列显卡——代表的有RTX 3080和RTX 3070以及怪兽级的RTX 3090。
　　发布会上黄教主就坦言这一代RTX 30系列显卡得益于NVIDIA Ampere架构，性能相比上一代RTX 20系列显卡有了巨大的飞跃。其中RTX 3080作为新一代旗舰显卡，性能可以达到RTX 2080的两倍，就连面向主流市场的RTX 3070也超过了之前售价过万的RTX 2080Ti旗舰显卡。至于RTX 3090，其定位已经是之前的TITAN RTX系列，性能是后者的1.5倍。
　　▲ 图：好东西看起来就是高端（贵）
　　那么新一代旗舰显卡RTX 3080的实际性能究竟是不是这么神呢？还记得之前的RTX 20系列开启了光线追踪和DLSS之后，帧率暴跌的情形么？我们将会在9月17日揭秘实测性能和数据，敬请期待。
　　那么本篇文章，我们主要来看看是什么样的魔法，让NVIDIA Ampere架构给GPU带来了如此魔力呢？换言之，NVIDIA Ampere架构相比上代Turing架构究竟有哪些不同？
　　先来看看数据——
　　如上表，得益于和三星合作的8N工艺（我们猜测不是单纯的8nm工艺，有特殊之处），RTX 3080的GPU拥有280亿个晶体管，比上一代RTX 2080Ti多了近10亿个——而体积却从754平方毫米减小到了628平方毫米。
　　因此，RTX 3080虽然同样拥有着68个SM模组，但是CUDA Core增加到了8704个，是RTX Super的2.8倍，也几乎比RTX 2080Ti翻了一番。用作神经网络计算的Tensor Core和负责光线追踪的RT Core虽然看着数量上和RTX 2080Ti差不多，甚至还有缩减，但是其效率今非昔比——后面我们会单独提到重新设计的RT Core和Tensor Core有多惊人。
　　GPU主频和Boost频率也得益于新制造工艺，基础频率达到了1440MHz，Boost可以到1710MHz——相信一些非公版会大大提升这一极限。显存、带宽和功耗有着不同程度的变化。 重新设计的着色器、Tensor Core和RT Core
　　NVIDIA Ampere架构相比于之前Turing的最大变化，就是其每一个SM（流式多处理器）的分区在每个时钟周期能够执行32次FP32（32位浮点运算）操作，这就使得SM中的全部4个分区加在一起每个时钟周期可以进行128次FP32操作——吞吐量翻倍。对于图形渲染，着色器的工作和计算都是直接受益于FP32运算速度，而光线追踪等最新的技术也会被FP32进一步加持。
　　作为显卡GPU的基础，Shader着色器是从GPU诞生之初就作为渲染图形的一种专用可编程器件——早期的着色器还会分为顶点着色器和像素着色器，前者负责画三角形（3D模型可以根据建模复杂度拆分成无数三角形），后者则负责做2D图形的像素渲染。
　　从CUDA诞生以来，NVIDIA的GPU就开始走上了一条从专门为图形渲染的可编程着色器，逐渐向通用计算发展。到如今基于NVIDIA Ampere架构的RTX 30系列显卡所拥有的可编程着色器，其处理能力由11 Shader-TFLOP/s LOPS提升到为30 Shader-TFLOP/s, FP32浮点吞吐量是上一代Turing架构的2.7倍。
　　▲ 图：新的着色器性能提升2.7倍，RT Core和Tensor Core性能也分别提升了1.7倍和2.7倍
　　早在Turing架构中引入Tensor Core（张量计算核心）和RT Core（光线追踪核心）时，我们就评论过，这两种核心必将成为未来显卡的基石——如果将GPU自身的CUDA Core看做是通用处理器，那么对于通用计算来说，繁重的光线追踪操作（RTX-OPS）和用于深度学习推演的张量计算（Tensor Flops）当然需要卸载（Offload），来提升效率。
　　NVIDIA的雄心和魄力在整个游戏业界还只有寥寥数款游戏时，就推出了超越时代的这两种核心，一时间让分析师和媒体不置可否的对其＂信心不足＂——直到越来越多的游戏开始支持光线追踪， 而Tensor Core所支持的DLSS基于深度学习技术的超采样，也终于能在更多实际游戏中发挥作用。但是还是有很多玩家诟病，真想要全开DLSS，必须上旗舰的RTX 2080Ti。
　　如今呢？新一代RTX 3080的根基，是NVIDIA Ampere架构——这是在今年GTC美国发布的最重要的GPU核心架构，其中最重要的就是第三代Tensor Core（张量计算核心），如下表所示：
　　NVIDIA A100 Tensor Core GPU性能数据
　　▲ 图：数据来自A100白皮书
　　这是NVIDIA用在数据中心深度学习的A100 GPU的数据，但是其第三代Tensor Core的威力几乎是原来V100的两倍——同样是NVIDIA Ampere架构的RTX 3080里，仅仅272个Tensor Core就可以带来238 Tensor-TFLOPS的计算力，而原来在RTX 2080Ti里，这个计算力仅为89 Tensor-TFLOPS——性能提升了近3倍。
　　▲ 图：新一代DLSS 2.0是在超级计算机加持下用4K图像做深度学习训练产生的模型（按训练的顺序陆续支持各个游戏）
　　我们可以期待，在最新DLSS 2.0的加持下，即使同样是4K分辨率，Tensor Core的强大推演能力，也可以让画面达到前所未有的锐度，消除锯齿——形象的说就是超级计算机帮你脑补了细节。
　　另一边，第二代RT Core与之前相比也有了近2倍的性能提升，并且支持并发式的光线追踪处理和着色。从数据上来说，RTX 2080Ti的光线追踪性能是34 RT-TFLOPS，而到了RTX 3080中，虽然RT Core的数量和之前一样，但是性能提升到了58 RT-FLOPS，这就使得同一时间内可以计算更多的光线和路径。
　　▲ 图：第二代RT Core拥有1.5倍以上的性能提升
　　光线追踪的最终目的，就是让计算机影像尽可能的接近真实的物理效果——在传统的光影环境中，GPU用光栅去处理光影关系，也就是将3D的图形映射投影到一个2D的平面上，然后去处理每一个点应该什么亮度，什么颜色等等。这样在最后合成起来，就得到了一个3D的图像——这非常类似MRI（核磁共振）的切片式成像原理。但是问题也很大——因为计算力的限制，也因为编程的复杂度，程序员只能简化光影逻辑，使得物体往往只有一两个光源——越多的光源对于场景的设计和计算复杂度要求越高。
　　而光线追踪则是我们平时在现实生活中看到东西的样子——光线从光源发出，可能是灯，可能是太阳，射到物体上再反射到我们的眼睛里，于是我们看到了亮部，暗部，颜色等。光线追踪就是要模拟这样的过程，只去定义光源和材质的物理性质（反光程度、漫反射程度等）。这样做的好处是简化了程序设计的难度，最大限度的还原真实——如果能无限跟踪所有光线，就可以还原整个世界的光影——这是理想中的设计。不可能实现的原因就是会带来海量的计算——近乎无穷无尽。
　　RT Core的出现，就是在GPU里分出一部分专门为这种最终而生的核心，来尽可能大的提升性能，并且在处理光影时，能够＂专项治理＂。
　　▲ 图：如果不告诉你这是光线追踪的虚拟世界，你会信以为真么
　　从2018年末微软正式在自己的DirectX里添加Raytracing（DXR）光线追踪技术以来，越来越多的游戏开始使用这项技术来让自己的世界构建的足够真实——而NVIDIA也实实在在的推动了时代的进步，并且又一次通过RTX 3080将光线追踪的水平提升到了新的高度。 三个容易被忽略的技术亮点
　　如果说RTX 3080性能的大幅度攀升得益于制程工艺带来的28亿晶体管和全新NVIDIA Ampere架构带来的提升，那么有三个细节是显卡与计算GPU最不同的地方——
　　1. GDDR6X显存的强大
　　NVIDIA为这一代RTX 3080旗舰显卡装备了世界上最快的显存——GDDR6X显存，相比RTX 2080Ti使用的GDDR6显存，显存位宽从352-bit变成了320-bit，看起来降低了？其实是因为显存的消息传输率从14Gbps提升到了19Gbps，因此带宽从GDDR6的616GB/秒，提升到了GDDR6X的760GB/秒。
　　▲ 图：发布会上的＂眼图＂——学过通信的朋友看着会很亲切
　　＂眼图＂可以清晰的看出来GDDR6X在同一时间周期内（380皮秒，1皮秒等于一万亿分之一（即10的负12次方）秒）以250mv步长发送4个不同的电平（形成了3行4个大眼睛）——发出的信号是4*4=16个。而上图左边是上一代GDDR6在500皮秒时间内发射2个电平——发出的信号是2*8=16个。
　　不难看出，左右两侧发射同样数量消息的情况下，右侧耗时是左侧的70%样子。换句话说，就是GDDR6X比GDDR6快了30%样子。这也与镁光官网所宣传的系统带宽提升一致。
　　NVIDIA表示这得益于和镁光合作设计的GDDR6X显存所采用的PAM4多级信令技术——其实这个牵扯到了通信里面非常时髦的脉冲振幅调制，尤其是在光通信领域——200G/s以上的光通信普遍采用QSFP64模块，而内部的信号调制就是PAM4为主。聪明的小伙伴开始联想GPU在NVIDIA游戏云（GeForce Now）里是如何通过Mellanox的高速网络直接用着一模一样的调制信号，绕过CPU实现GPUDirect（请自行发掘这个秘籍）的。
　　2. RTX I/O技术
　　NVIDIA RTX I/O技术是什么？简而言之就是GPU可以绕过CPU而直接访问高速存储。
　　在HDD时代，打开游戏的过程就是从硬盘里通过南桥的控制芯片加载数据到内存里，这一切都是通过CPU控制的，然后GPU再通过CPU去内存里读取数据放到自己的显存里做计算。效率虽然低下，但是瓶颈主要是HDD机械硬盘的延迟和速度。
　　但是到了如今，PCI-E 已经从3.0发展到了4.0时代，NVMe SSD的速度也极大的提升。那么之前这一数据存取过程就显得非常的拖沓——为什么不直接把数据从SSD里读取到显存里呢？
　　从上图可以看出，从PCI-E Gen4 NVMe的SSD里读取的数据，通过磁盘控制器直接通过PCI-E总线放到显卡的西安村里，这就是NVIDIA的RTX I/O技术，它可以让这一存取数据的操作绕过CPU和本地内存，完成数据链路从存储到显存的直接调度。
　　这一应用场景除了可以充分利用PCI-E 4.0的高速带宽来释放NVMe SSD的速度外，还能够极大的降低系统时延，玩家打开游戏不用再等那么久，几乎感受不到游戏的加载用时。
　　3. REFLEX低延迟技术
　　黄教主在开头就提及了NVIDIA REFLEX低延迟技术，这实际上可以理解为GeForce RTX显卡和G-Sync新技术通过优化来降低系统和游戏中的延迟——而最高360Hz刷新率的支持，也让竞技类游戏的对抗度提升了一大截。
　　吃鸡游戏刚火起来的时候，很多玩家深有体会的就是60Hz刷新率下玩游戏是一个体验，而欢乐144Hz支持G-Sync的显示器，加上一块好显卡，那么吃鸡游戏就变成了另一种体验，仿佛自己技术提升了一大截——实际上是你的眼睛看到的内容比别人多，比别人早了几毫秒，就这几毫秒就是瞄准的关键时间点。
　　关于RTX 30系列显卡其实还有不少新设计，例如双轴流散热设计，比上一代散热器的效率提升了2倍，而8K HDR的视频录制和编辑，AV1的解码加速都能在不同层面提升玩家的体验。各位敬请期待我们明天发布的具体评测——
　　RTX 3080显卡的标准跑分： 3DMark Fire Strike ——诠释DirectX 11对照上代卡的提升 3DMark Time Spy ——DirectX 12 基准测试 3DMark Port Royal —— 显卡的光线追踪基准测试 3DMark DLSS ——深度学习超采样测试
　　游戏测试： 奇点灰烬：扩展版（Ashes of the Singularity: Escalation）——没有人真正玩过这个游戏，都是用它来做DX12跑分Benchmark 刺客信条：奥德赛（Assassin＂s Creed Odyssey）——众生平等的基准测试 堡垒之夜（Fronite）——支持光线追踪的网游 控制（Control）——支持DLSS 2.0的游戏 德军总部：新血脉（Wolfenstein: Youngblood）——光线追踪和DLSS测试 边境（跑分测试）（Boundary Benchmark）——国产游戏大作，支持光线追踪 光明记忆：无限（Bright Memory: Infinity）——国内知名大作，虚幻4.9引擎打造，光线追踪+DLSS测试 地铁：离去（Metro Exodus）——早期支持光线追踪和DLSS的游戏，标杆 我的世界（光追版）（MineCraft（RT））——不用多说了吧 古墓丽影：暗影（Shadow of the Tomb Raider）——光线追踪和DLSS测试 古墓丽影：崛起（Rise of the Tomb Raider）——DirectX 12早期标杆，游戏也支持DirectX 11
　　其他测试：有小惊喜测试送给专业玩家，敬请期待。

俄罗斯最神秘村庄，经常一夜之间消失，为了安全，晚上睡觉不关门介绍了那么多的地方，似乎还没有介绍过俄罗斯的这个神秘村庄。在这个小镇上生活的人，晚上睡觉都不敢关门，只为能活着见到第二天的太阳。听上去是不是非常恐怖，首先晚上睡觉不敢关门窗这件事情我在城打工，乡下之望一里，二里，三里，涌上思乡，想起一千里的地方。我老村子的屋子，荒成在一片杂草丛中，老村子还在我的心上，遥望的家乡，是一座情感池。我离开多久了？多久了？在打工的行程，走出去，回不去，为什么就算是应届毕业生也需要为未来接受再培训2018年有35的美国人至少接受过四年大学教育，这是历史上最多的。然而，尽管我们可能拥有有史以来受教育程度最高的人口，但这些学位却未必能让人们获得他们需要的实用工作技能。大学学位课今天一场暴雨手机的时代。。我上网，天气忽变，有人说，谁喊来的？我说是我喊来的雨。城市下暴雨了。我一看眼前这个斜飞的雨，灰蒙蒙的天苍，和拂拂摇曳的树，及城区挤挤的楼群，它们都是气势的主儿。一场暴如果没有大脑一个人在房间，恍恍惚惚在晚上预设一下，有一颗大脑，飞来，合在可以跳动的躯体上，这一棵大脑，自带意识力？还是这一棵大脑，追一个跳动的肉体，当两者合成一体，简单地说，合成了我，此刻，让一连几晚，作同一个内容的梦她一连几天，作了一个晚上的梦，她一回味，作的呈现同一帧画面，是怎么一样事？她想，意味着什么？俗话说，日有所思，夜有所梦，她想知道这梦，从那飞来？几年之前，在本村，她见村中一个年轻人点赞，评论，转发优质海鲜，在这儿这个帐号，他在现实生活，叫什么名字呢？其实，他的姓名，叫张半斤，在网上一开数年，开了一家海鲜网店，开店时，免不了动用营销的策略，所以，看到他在房里，每天盯看手机，在收一点礼金最近，邓军的妻子在牌桌上，随口说给两个年轻人，去穿针引线，她想当一下子媒人。邓军的妻子这么多年，她在外，一直在工厂上班，由于公司订单有一点小，下班后，她和一伙牌友，坐一张桌上娛乐玩养过小宠物的两个兄弟一个父亲，生了三个兄弟，这一家养三子，三个儿子兴趣各不同，老大干了消灭夏天蚊子的行业，老二进入消灭蚂蚁的大行业，老三在金融业，进入炒股中，三个兄弟各领一本专业的证书。大哥干了消灭蚊喜鹊桥上的约全她叫小春天，公司的总裁叫张熟秋，我叫王夏热，王某生的外号，他叫冬冬。讲一讲四个人的故事。一天，我那一片乡下的媒婆，她的芳名，名叫四季的红娘，熟悉我们周边四个小村，有一个未婚的姑娘，放弃三万购房的押金阿利商上半年，给一套打算购买的房子，事先押了三万元的定金，两个月后，他决定取消购房子。那么，他一旦取消，意味赔去三万元的押金，什么原因，让他这样做呢？阿利商出生在生意的世家，小时候

<<<<<<－>>>>>>

DK新视觉商务英语教程上册职场英语自救指南我曾经在某外资银行实习过半年，在办公室中亲耳听到一个姐姐用英文打电话，她口语的流畅程度和发音准确性让我印象深刻。当时我就在心里默默感叹，她实在太厉害了。在一个外企，我每天都沉浸在中西南联大文学课背对废墟的文学课一开始知道西南联大，是因为电影无问西东。这个在历史上仅仅只存在过八年零十一个月的高等学府，却成为了中国教育界的珠穆朗玛峰，从它那里毕业的优秀人才撑起了当时中国的半壁江山。当时的中国跑长途不想保养检查这4点准没错现在的高速公里建设的公里数也是越来越长，基本上都中国的南部能直接贯穿到中国的北部，如果想出远门自己开车的话走高速是一个zui佳的选择。我们在跑高速之前需要做很多的准备，因为在高速上十万级大SUV新选择捷途X90PLUS捷途X90PLUS将于9月17日上市。据此前的预售消息来看，捷途X90PLUS共计5款车型，预售价格区间为10。29万14。09万元。在外观上，新车前脸延续了捷途家族式的徽城翘楚设秋季汽车体检安排对于汽车而言，关于秋季的养护知识也是大家不得不去重视的问题。因为在夏季汽车造成的一些磨损，在秋季我们可以去进行修复。另外也是为了即将来临的冬季，给爱车做一个更为安全的防范。恰好现在汽车前挡玻璃上的小黑点和黑边是啥如今，国人对生活品质的要求也随着经济的复苏而加强，尤其是对提升出行品质的迫切需求，纵观近两年来的汽车消费趋势，车辆的舒适性和安全性越来越成为消费决策的重要一环，那开工后出行我们到底西南联大哲学课身处黑暗，脚踩光明翻开西南联大哲学课这本书，扉页是折叠起来两页大小书写着由中国当代著名哲学家与教育家冯友兰撰写的国立西南联合大学纪念碑文。现如今那块镌刻着碑文的纪念碑坐落于云南师范大学东北侧的绿树环捷途X90PLUS配1。5引擎够用吗论空间就服对于注重空间体验的消费者来讲，中型车是合理选择目标，但往往价格又会比紧凑级别车型贵很多。国产品牌崛起，带来了很多性价比高的中级车，今天要跟大家来聊的是一款中型SUV，名字叫做捷途X太阳与铁直面生死的虚妄之花三岛由纪夫的散文所传达出的思想能够用来帮助理解他的小说。太阳与铁是三岛晚期的长篇散文，我却从中发现了它能与三岛第一篇长篇小说假面的告白交相呼应。经过这么多年，他的思想竟依旧如初，我中信经典丛书003你和优秀经理人的距离只差这十本书成为一位好的经理人一直都不是一件容易的事情，他们不仅要以身作则，更要对其他人的工作负责。想要成为一名优秀的经理人，就必须不断学习，中信经典丛书003经理人必读经典就为我们提供了一份丹麦做法震惊世界，强硬要求非西方居民比例降低在欧洲，外国移民已经是一个敏感话题，丹麦政府近期做出了震惊世界的决定，哥本哈根政府计划出台法律，以10年为期限，要将弱势社区中非西方居民比例，从50降至30。一刀切！丹麦政府口中的