英伟达首席科学家深度学习硬件的过去现在和未来

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

英伟达首席科学家深度学习硬件的过去现在和未来

　　作者BillDally
　　翻译胡燕君、沈佳丽、贾川
　　过去十年是深度学习的黄金十年，它彻底改变了人类的工作和娱乐方式，并且广泛应用到医疗、教育、产品设计等各行各业，而这一切离不开计算硬件的进步，特别是GPU的革新。
　　深度学习技术的成功实现取决于三大要素：第一是算法。20世纪80年代甚至更早就提出了大多数深度学习算法如深度神经网络、卷积神经网络、反向传播算法和随机梯度下降等。
　　第二是数据集。训练神经网络的数据集必须足够大，才能使神经网络的性能优于其他技术。直至21世纪初，诸如Pascal和ImageNet等大数据集才得以现世。
　　第三是硬件。只有硬件发展成熟，才能将大型数据集训练大型神经网络的所需时间控制在合理的范围内。业内普遍认为：比较合理的训练时间大概是两周。至此，深度学习领域燃起了燎原之火。
　　如果把算法和数据集看作是深度学习的混合燃料，那么GPU就是点燃它们的火花，当强大的GPU可用来训练网络时，深度学习技术才变得实用
　　此后，深度学习取代了其他算法，被广泛应用在图像分类、图像检测、语音识别、自然语言处理、时序分析等领域，甚至在围棋和国际象棋方面也能看到它的身影。随着深度学习潜入人类生活的方方面面，模型训练和推理对硬件的要求也越来越高。
　　从2012年AlexNet出现到2016年ResNet问世，图像神经网络的训练算力消耗（以petaflopsday为单位）增长了将近2个数量级，而从2018年的BERT到近年的GPT3，训练算力消耗增加了近4个数量级。在此期间，得益于某些技术的进步，神经网络的训练效率明显提升，由此节省了不少算力，否则算力消耗的增长还会更夸张。
　　研究人员想用更大的无监督语言数据集训练更大的语言模型，然而，尽管他们已经拥有4000个节点的GPU集群，但在合理训练时间内能处理的运算还是非常有限。这就意味着，深度学习技术的发展有多快，取决于硬件发展有多快。
　　如今，深度学习模型不但越来越复杂，而且应用范围越来越广泛。因此，还需要持续提升深度学习的性能。
　　那么，深度学习硬件究竟如何继续提升？英伟达首席科学家BillDally无疑是回答这一问题的权威，在H100GPU发布前，他在一次演讲中回顾了深度学习硬件的现状，并探讨摩尔定律失效的情况下持续提升性能扩展的若干方向。OneFlow社区对此进行了编译。
　　1GPU架构演进史
　　从2012年的K20X到2020年的A100，GPU的推理性能提高到原来的317倍。这就是我们所说的黄氏定律，这种发展速度比摩尔定律快得多。
　　GPU的推理性能提升
　　但不同于摩尔定律，在黄氏定律中，GPU的性能提升不完全依赖制程技术的进步。上图用黑、绿、蓝三色分别标注了这几种GPU，分别代表它们使用了三种不同的制程技术。早期的K20X和M40使用的是28纳米制程；P100、V100和Q8000使用的是16纳米制程；A100使用的是7纳米制程。制程技术的进步大概只能让GPU的性能提高到原来的1。5或2倍。而总体317倍的性能提升绝大部分归功于GPU架构和线路设计的完善。
　　2012年，英伟达推出了一款Kepler架构GPU，但它并不是专为深度学习设计的。英伟达在2010年才开始接触深度学习，当时还没有考虑为深度学习量身定制GPU产品。
　　Kepler（2012）
　　Kepler的目标使用场景是图像处理和高性能运算，但主要还是用于图像处理。因此，它的特点是高浮点运算能力，它的FP32计算（单精度浮点数计算）速度达到近4TFLOPS，内存带宽达到250GBs。基于Kepler出色的性能表现，英伟达也将它视为自家产品的基准线。
　　Pascal（2016）
　　后来，英伟达在2016年推出了Pascal架构，它的设计更适合深度学习。英伟达经过一些研究后发现，不少神经网络都可以用FP16（半精度浮点数计算）训练，因此Pascal架构的大部分型号都支持FP16计算。下图这款PascalGPU的FP32计算速度可达10。6TFLOPS，比前一款KeplerGPU高出不少，而它的FP16计算则更快，速度是FP32的两倍。
　　Pascal架构还支持更多复杂指令，例如FDP4，这样就可以将获取指令、解码和获取操作数的开销分摊到8个算术运算中。相较于之前的融合乘加（FuseMultiplyAdd）指令只能将开销分摊到2个算术运算，Pascal架构可以减少额外开销带来的能耗，转而将其用于数学运算。
　　Pascal架构还使用了HBM显存，带宽达到732GBs，是Kepler的3倍。之所以增加带宽，是因为内存带宽是深度学习性能提升的主要瓶颈。此外，Pascal使用了NVLink，可以连接更多机器和GPU集群，从而更好地完成大规模训练。英伟达为深度学习推出的DGX1系统就使用了8个基于Pascal架构的GPU。
　　Volta（2017）
　　2017年，英伟达推出了适用于深度学习的Volta架构，它的设计重点之一是可以更好地分摊指令开销。Volta架构中引入了TensorCore，用于深度学习的加速。TensorCore可以用指令的形式与GPU连接，其中的关键指令是HMMA（HalfPrecisionMatrixMultiplyAccumulate，半精度矩阵乘积累加），它将2个44FP16矩阵相乘，然后将结果加和到一个FP32矩阵中，这种运算在深度学习中很常见。通过HMMA指令，就可以将获取指令和解码的开销通过分摊降低到原来的10到20。
　　剩下的就是负载问题。如果想要超越TensorCore的性能，那就应该在负载上下功夫。在Volta架构中，大量的能耗和空间都被用于深度学习加速，所以即使牺牲可编程性，也不能带来太多性能提升。
　　Volta还升级了HBM显存，内存带宽达到900GBs，还使用了新版本的NVLink，可以让构建集群时的带宽增加到2倍。此外，Volta架构还引进了NVSwitch，可以连接多个GPU，理论上NVSwitch最多可以连接1024个GPU，构建一个大型共享内存机器。
　　Turing（2018）
　　2018年，英伟达推出了Turing架构。由于之前的TensorCore大获成功，所以英伟达又顺势推出了IntegerTensorCore。因为大部分的神经网络用FP16即可训练，做推理时也不需要太高的精度和太大的动态范围，用Int8即可。所以，英伟达在Turing架构中引进了IntegerTensorCore，使性能提高到原来的2倍。
　　Turing架构还使用了GDDR显存，以支持那些有高带宽需求的NLP模型和推荐系统。当时有人质疑称，Turing架构的能源效率比不上市面上的其他加速器。但如果仔细计算，会发现其实Turing架构的能源效率更高，因为Turing用的是G5显存，而其他加速器用的是LPDDR内存。我认为，选择G5显存是一个正确的决定，因为它可以支持同类产品没能支持的高带宽需求的模型。
　　我对Turing架构深感骄傲的一点是，它还配备了支持光线追踪（RayTracing）的RTCore。英伟达在2013年才开始研究RTCore，在短短5年后就正式推出了RTCore。
　　Ampere（2020）
　　2020年，英伟达发布了Ampere架构，让当年发布的A100实现了性能飞跃，推理速度可达1200Teraflops以上。Ampere架构的一大优点是，它支持稀疏性。我们发现，大部分神经网络都是可以稀疏化的，也就是说，可以对神经网络进行剪枝，将大量权重设置为0而不影响它的准确率。但不同神经网络的可稀疏化程度不同，这就有些棘手。比如，在保证不损失准确率的前提下，卷积神经网络的密度可以降低至30到40，而全连接神经网络则可降低至10到20。
　　传统观点认为，由于运算稀疏矩阵包的开销较大，所以如果密度不能降到10以下，权衡之下不如运算密集矩阵包。我们一开始和斯坦福大学合作研究稀疏性，后来做出了很好的机器，它们在矩阵密度达到50时也能高效运行，但要想让稀疏矩阵在电源门控（powergating）方面比密集矩阵更优越还是很困难，这是我们一直想突破的地方。最终，我们攻破难题研发出了Ampere，而秘诀就是结构化稀疏。
　　结构化稀疏
　　Ampere架构规定矩阵的每4个数值中，非零值不能超过2个，也就是通过去掉非零值对权重进行压缩。通过输入码字（codeword）判断哪些权重应被保留，并用码字判断这些非零权重应该乘以哪些输入激活，然后相加，完成点乘操作。这种做法非常高效，让Ampere架构在大多数神经网络上的性能提升到原来的2倍。
　　此外，Ampere架构还有不少创新点，例如Ampere内置了TF32（即TensorFloat32）格式，它结合了FP32的8位指数位和FP16的10位尾数位。Ampere还支持BFLOAT格式，BFLOAT的指数位与FP32相同，尾数位比FP32少，所以可以视为FP32的缩减版。上述的所有数据格式都支持结构化稀疏，所以无论用FP16和TF32训练，还是用Int8和Int4推理，都可以获得结构化稀疏带来的高性能。
　　随着Ampere在量化方面做得越来越好，它可以应用在很多神经网络上并保证高性能。Ampere有6个HBM堆栈，且HBM显存的带宽也有所升级，达到2TBs。端到端推理时，Ampere的运算能力可达3。12TOPSW（Int8）和6。24TOPSW（Int4）。
　　2GPU推理性能提升的三大因素
　　GPU推理性能提升的三大因素
　　总结深度学习过去的发展，GPU推理性能在8年内提升317倍主要归功于三大因素：
　　首先，最重要的是数字表示（numberrepresentation）法的发展。FP32的精度太高，导致算术运算的成本太高。后来Turing和Ampere架构支持Int8，极大提升了GPU的每瓦性能。Google发表论文公布TPU1时表示，TPU1的优势就在于它是专门为机器学习量身定制的。实际上，Google应该是在拿自家的TPU1和英伟达的Kepler进行比较（如前所述，Kepler并非专门为深度学习而设计），所以TPU1的优势归根结底可以说是Int8相较于FP32的优势。
　　其次，GPU支持复杂指令。Pascal架构新增了点乘指令，然后Volta、Turing和Ampere架构新增了矩阵乘积指令，让开销得到分摊。在GPU中保留可编程引擎可以带来很多好处，它可以像加速器一样高效，因为每项指令完成的任务非常多，每项指令的开销分摊几乎可以忽略不计。
　　最后，制程技术的进步。芯片制程从28纳米发展到如今的7纳米，为GPU性能提升作出了一定的贡献。
　　下列例子可以让你更好地理解开销分摊的效果：如果执行HFMA操作，乘和加2个操作合计只需1。5pJ（皮焦耳，Picojoules），然而获取指令、解码和获取操作数需要30pJ的开销，分摊下来开销就会高达2000。
　　而如果执行HDP4A操作，就可以将开销分摊到8个操作，使开销下降至500。而HMMA操作，由于绝大部分的能耗都用于负载，开销仅为22，IMMA则更低，为16。因此，虽然追求可编程性会增加少量开销，但采取不同的设计可带来的性能提升更加重要。
　　3从单卡性能到GPU集群连接
　　以上谈论的都是单个GPU的性能，但训练大型语言模型显然需要多个GPU，因此还要改善GPU之间的连接方式。
　　我们在Pascal架构中引入NVLink，后来的Volta架构采用了NVLink2，Ampere架构采用了NVLink3，每一代架构的带宽都翻了一倍。此外，我们在Volta架构中推出了第一代NVSwitch，又在Ampere架构推出了第二代。通过NVLink和NVSwitch，可以构建超大型的GPU集群。另外，我们还推出了DGXbox。
　　DGXbox
　　2020年，英伟达收购了Mellanox，所以现在可以提供包含Switches和Interconnect在内的整套数据中心解决方案，供构建大型GPU集群之用。此外，我们还配备了DGXSuperPOD，它在AI性能记录500强名单上排行前20。以往，用户需要定制机器，现在只需要购置一台可以部署DGXSuperPOD的预配置机器，就可以获得DGXSuperPOD带来的高性能。此外，这些机器还非常适用于科学计算。
　　从前，用单台机器训练单个大型语言模型需要几个月之久，但通过构建GPU集群就可以大大提高训练效率，因此，优化GPU集群连接和提升单个GPU的性能同样重要。
　　4深度学习加速器：新技术的试验场
　　接下来谈谈英伟达的加速器研发工作。英伟达把加速器视为试验新技术的载体，成功的技术最终会被应用到主流GPU中。
　　可以这样理解加速器：它有一个由内存层次结构输入的矩阵乘法单元，接下来要做的是让大部分的能耗用于矩阵乘法计算，而不是用于数据搬运。
　　为了这个目标，我们在2013左右启动了NVIDIADLA项目，它是一款开源产品，配套非常完善，与其他深度学习加速器别无二致。但DLA有大型MAC阵列，支持2048次Int8、1024次Int16或1024次FP16操作。
　　DLA有两个独特之处：一是支持稀疏化。我们从容易实现的目标开始着手，所有的数据传输，包括从DMA到UnifiedBuffer和从UnifiedBuffer到MAC阵列，都只涉及非零值，通过编码决定哪些元素被留下，然后对这些元素进行解压缩，再输入MAC阵列进行运算。
　　DLA解压缩的方式比较巧妙，它并不向MAC阵列中输入零值，因为这会让一连串的数据都变为零。相反，它设置了单独的线路表示零值，当乘法器在任一输入中接收到该线路时，就会锁定乘法器内的数据，然后发送输出，输出的数据不会增加任何数值，这种数据门控（DataGating）的能源效率非常高。
　　二是在硬件层面支持Winograd变换。要知道，如果要做卷积，例如一个mn的卷积核，在空间域就需要n的2次方个乘法器和加法器，但如果在频域，就只需要逐点相乘。
　　所以大型卷积核在频域运算比在空间域运算更高效。根据卷积核大小的不同，对部分图像网络而言，Winograd变换可以带来4倍的性能提升。
　　EIE（2016）
　　2016年，我在斯坦福和我当时的学生韩松（MITEECS助理教授、原深鉴科技联合创始人）一起研究EIE（EfficientInferenceEngine）。这是对稀疏化的初步探索之一。我们在硬件层面支持CSR（CompressedSparseRow）矩阵表示，这种做法非常高效，在密度为50时，甚至比全密度计算还要节能。
　　后来发现，如果想让加速器更高效，应该构建向量单元阵列，这样每个引擎不会只执行单个乘加，而是每个循环每个PE（ProcessingElement）执行1616256个乘加。但当我们开始构建向量单元阵列时，发现很难高效实现稀疏化，于是转而采用结构化稀疏。
　　EIE处理标量单元时，它将指针结构储存在单独的内存中，然后通过流水阶段来处理指针结构，决定哪些数据可以相乘，继而执行乘法，将运算结果放置在合适的位置。这一整套流程运行得非常高效。
　　我们还发现，提高神经网络运算效率的方法除了剪枝实现稀疏化之外，还有量化。因此，我们决定使用码本量化（codebookquantization）。在用比特数表示的数据方面，码本量化是提升效率的最佳方法。所以我们对codebook（码本）进行了训练。
　　事实证明，如果你能使用反向传播来捕捉梯度下降，那就可以将反向传播运用到任何事物中。所以我们在码本中使用反向传播，训练了给定精度的最优码字集。假设码本有7个比特，那么你将得到128个码字，我们就在神经网络中找到最优的128个码字进行训练。
　　码本量化面临一个问题：数学运算的开销很高。因为不管码本有多大，实际数值是多少，你都需要在RAM（随机访问内存）中进行查找。实际数值必须以高精度表示，而你无法将这些码字准确地表示出来。
　　因此，我们在高精度数学方面花了很多精力。从压缩的角度来看，这样做的效果很好，但从数学能量（mathenergy）的角度来看，就显得不是很划算，所以在后续工作中我们就放弃了这项技术。
　　Eyeriss（2016）
　　JoelEmer（同时供职于英伟达和麻省理工大学）和麻省理工大学的VivienneSze一起构建了Eyeriss，主要解决了平铺问题，或者说是如何限制计算，以此来将数据搬运（datamovement）最小化。典型的方法是使用行固定（rowstationary），在行中传播权重，输出在列中激活，并最大限度地减少数据搬运消耗的能量。
　　SCNN（2017）
　　我们现在仍在进行稀疏性研究。2017年，我们为稀疏编译（神经网络的进化版）搭建了一台名为SCNN（SparseCNNs）的机器，我们所做的是：将与处理稀疏性相关的所有复杂问题都转移到输出上。读取所有的输入激活，同时明确它们需要去往哪里，因此这里的f宽向量是典型的向量输入激活。我们一次会读取四个输入激活，四个权重，每个权重都需要乘以每个输入激活。这只是一个关于把结果放在哪里的问题，所以我们用f乘f计算。
　　在坐标计算中，我们取输入激活和权重的指数，并计算出在输出激活中需要求和结果的位置。然后在这些累加器缓冲区上做了一个数据发散（scatteradd）计算。在此之前，一切都非常有效。但事实证明，将不规则性转移到输出上不是一个好办法，因为在输出中，精度实际上是最宽泛的。当你倾向于累加，做了八位权重，八位激活，累加到了24位。在这里我们用宽位累加器（wideaccumulators）做了大量的数据搬运，效果优于做更密集一点的数据搬运。不过提升也没有想象的那么多，也许是密度单元能量的50。
　　SIMBA（RC18）（2019）
　　我们要做的另一件事是：用现有加速器建造一个多芯片模块SIMBA（RC18），在2018年产生了做此研究的想法，同时这款芯片也展示了很多巧妙的技术。它有一个很好的PE架构，该芯片则在其中间提供了一项非常有效的信令技术（signalingtechnology）。现在该架构扩展到了完整的36个芯片，其中每个芯片都有一个4x4的PE矩阵，在这个单位中，每个PE又有8个宽矢量单位，因此我们能够得到128TOPS的运算能力，每个Op有0。1pJ，大约相当于10TOPSW。从中我们学到了很多关于权衡（tradeoffs）的东西。
　　我们意识到：构建这些PE阵列宛如建立一个非常大的设计空间（designspace），关乎如何构建内存层次结构，如何调度数据等等，对此我们建立了一个叫做MAGNET的系统。
　　MAGNET
　　上图是一个于2019年发表在ICCAD（国际计算机辅助设计会议）上的设计空间探索系统，主要用于枚举其设计空间，如：每个向量单元应该有多宽，每个PE有多少向量单元，权重缓冲区有多大，累加器缓冲区有多大，激活缓冲区有多大等等。后来发现，我们需要去做另一个级别的缓存，于是添加了权重收集器和累加器收集器。
　　MAGNETRESULTS
　　通过这种额外的缓存级别，我们最终取得了成功。这表明这里的数据流是不同的，而权重固定数据流最初是由Sze和Joel来完成的。你将大部分能量投到了数据路径以外的事情上，比如投入到累积缓冲区、权重缓冲区和输入缓冲区中。但通过这些混合数据流，权重固定，局部输出固定，输出固定，局部权重固定，能够在数学运算中获得几乎三分之二的能量，并且可以减少花在这些内存阵列中的能量，从而在内存层次结构的另一个层上进行处理。这使得现在的每瓦性能达到约为20TOPS。
　　VSQuant
　　2021年，在MLSYS（TheConferenceonMachineLearningandSystems，机器学习与系统会议）会议上，我们引入了VSQuant，以此来探索出一种在压缩比特数（这方面码本量化效果很好）和数学开销方面都很划算的量化方式。我们使用整数表示，但同时想要缩放该整数表示，以便可以表示出整数的动态范围。
　　但事实证明，如果你现在将其应用到整个神经网络，那么效果不会很好，因为神经网络上有很多不同的动态范围，所以VSQuant的关键是：我们对一个相对较小的向量施加了一个单独的比例因子（scalefactor），大约通过在32个权重上进行上述操作，动态范围会小得多。我们可以把这些整数放在上面，也可以对其调整优化。
　　也许我们没有将离群值准确地表示出来，但更好地表示出了其余数字。如此一来，我们就可以用相对低精度的权重和激活来换取较高的精度。所以我们现在有多个比例因子（scalefactors）：一个是权重因子，一个是激活因子。
　　Energy，Area，andAccuracyTradeoff
　　我们基本上是在向量层级进行这些操作，结果如Bertbase所示。与不进行权重训练相比，我们可以通过训练在某些情况下节省20的能量和70的空间，上图的绿色表示基本上没有损失准确性；蓝色、橙色和红色表示准确性更高或更低。但即使在蓝色水平，准确性也相当高了。
　　通过VSQuant和一些其他调整，我们在这些语言模型上进行了试运行。在语言模型上运行比在大约为120TOPSW的图像模型上运行要困难得多。
　　Accelerators
　　所以对于加速器，要先做一个矩阵乘法器。我们需要提出一种平铺方法，一种采用神经网络的七个嵌套循环计算方法。本质上是将其中一些循环复制到内存系统的各层，以最大限度地重复使用每层的内存层次结构，并尽量减少数据搬运。
　　我们还研究了稀疏性，在压缩方面很不错。它基本上增加了内存带宽和通信带宽，减少了内存和通信的能量。稀疏性发展的下一个层次是：当你有一个零值，只需单独发送一条线表示零值，而不必在每个循环中切换到8或16位。
　　Ampere架构可以通过使用结构化稀疏来重用乘法器，这是一种很有效的方法，只需要几个多路复用器的开销（基本上可以忽略不计）。在进行指针操作时，我们也可以重用乘法器，从中可获得2倍的性能。数值表征（numberrepresentation）非常重要。我们从EIE开始（译者注：EfficientInferenceEngine，韩松博士在ISCA2016上的论文。实现了压缩的稀疏神经网络的硬件加速。与其近似方法的ESE获得了FPGA2017的最佳论文。），试图做码本，但这使得数学上的缩放很昂贵。
　　最后，在加速器里试验成功的技术最终会被运用到GPU中。这是一种很好的测试方式，我们认为，GPU是一个针对特定领域硬件的平台，它的内存系统非常好，网络流畅，能够让深度学习应用运行得非常快。
　　5深度学习硬件的未来
　　FutureDirections
　　接下来谈谈深度学习硬件的未来。上图是一个能量流向饼状图，从中可以看到大部分都流向于数据路径，其背后有大约50是关于数学运算，所以我们想让数学运算的能量消耗更少；剩下很多流向内存和数据搬运。其中绿色的是数据搬运，其余部分是输入缓冲区、权重缓冲区、累加缓冲区和累加收集器，占比都有不同。
　　我们正在研究降低数学运算的能量消耗，最好的一个办法就是将其转移到对数系统。因为在对数系统中，乘法变成了加法，而加法的耗能通常要低得多。另一个办法是转为更小的数值，这一点可以通过VSQuant实现。通过更精确地量化，我们可以用较低的精度数从神经网络中获得同等的精度。
　　我们希望能将平铺做得更好，比如在某些情况下，可能会在内存层次结构中添加更多层，这样就可以降低内存能量，也可以使内存电路和通信电路的效果更好。
　　在Ampere架构上，我们已经在结构化稀疏的工作是一个很好的开始，但我认为我们可以通过降低密度或选择多个密度来调整激活和权重，以此做得更好。
　　随着研究的深入，工艺技术也会带来一些电容缩放的进展。
　　6总结
　　2012年发布Kepler架构以来，GPU的推理性能（inferenceperformance）每年都在翻倍增长。发展到现在，很大程度上要归功于不断更好的数字表示。本次我们谈了很多内容，比如从Kepler架构的FP32到FP16到Int8再到Int4；谈到了通过分配指令开销，使用更复杂的点积；谈到了Pascal架构，Volta架构中的半精密矩阵乘累加，Turing架构中的整数矩阵乘累加，还有Ampere架构和结构稀疏。
　　关于Plumbing我谈得很少，但Plumbing却非常重要。通过Plumbing来布置片上内存系统和网络，由此可以充分利用强大的TensorCores（张量核心）。对于TensorCores来说，使其在Turing架构中每秒执行一千兆的操作，并将数据输入到执行通用基准测试中，以此来安排分支存储器、片上存储器和它们之间的互连互通以及正常运行，都非常重要。
　　展望未来，我们准备尝试将各种新技术应用到加速器中。前面提到，我们已经就稀疏性和平铺技术进行了多次实验，并在MAGNet项目中试验了不同的平铺技术和数值表示等等。但我们仍然倍感压力，因为深度学习的进步其实取决于硬件性能的持续提升，让GPU的推理性能每年都翻一番是一项巨大的挑战。
　　其实我们手里的牌打得差不多了，这意味着我们必须开始研发新的技术，以下是我认为值得关注的四个方向：首先，研究新的数字表示，比如对数（Lognumber），以及比EasyQuant更加巧妙的量化方案；其次，继续深入研究稀疏性；然后，研究存储电路和通信电路；最后，改良现有的工艺技术。
　　7答听众问
　　DejanMilojicic：需要多大的矩阵卷积才能将Winograd算法转换成更高效的卷积实现？
　　BillDally：我认为，33的矩阵卷积就很高效。当然，卷积越大，效率越高。
　　DejanMilojicic：高带宽存储器（HighBandwidthMemory，HBM）的内存带宽是如何计算的？是通过所有的GPU核同时访问内存吗？
　　BillDally：每个HBM堆栈都有一个单独的帧缓冲区，像Ampere架构有六个堆栈。我们的内存带宽是通过每个内存控制器以全带宽运行来计算的。各个GPU核之间都有一个缓存层，然后我们的片上网络的带宽是HBM带宽好几倍，所以基本上只需运行一小部分的流式多处理器就能使HBM达到饱和。
　　DejanMilojicic：带有NVLink的分布式计算如何工作？谁来决定具体执行哪一个计算？在多个GPU上做scattergather时，哪些地方会产生开销以及会产生哪些开销？
　　BillDally：程序员会决定把数据和线程放在什么位置，而你只需在GPU上启动线程和数据以及确定它们的运行位置。采用NVLink进行连接的系统具备一大优势，那就是它是一个共享的地址空间，传输相对较小数据时的开销也相当小，所以我们在网络中采取集群通信。
　　通常情况下，如果你在深度学习中做数据并行，那么每个GPU都会运行相同的网络，但处理的是同一数据集的不同部分，它们会各自累积权重梯度，之后你再共享各个GPU上的梯度并累积所有梯度，然后添加到权重中。集群通信就非常擅长处理这样的工作。
　　DejanMilojicic：我们到底是应该为所有应用创建通用的深度学习加速器，还是分别创建专用的加速器，比如视觉加速器或自然语言处理加速器？
　　BillDally：在不影响效率的情况下，我认为加速器当然越通用越好，英伟达的GPU在加速深度学习效率方面堪比专用加速器。真正重要的是，机器学习领域正在以惊人的速度向前发展。
　　几年前，大家还在使用循环神经网络处理语言，然后Transformer出现并以迅雷不及掩耳之速取代了RNN，转眼间所有人都开始使用Transformer进行自然语言处理。同样，就在几年前，每个人都在使用CNN来处理图像，虽然现在仍有不少人在使用卷积神经网络，但越来越多人开始使用Transformer来处理图像。
　　因此，我并不支持产品过度专用化或者为某一网络创建专用加速器，因为产品的设计周期通常需要持续好几年时间，而在此期间，人们很可能已经不再使用这种网络了。我们必须具备敏锐的眼光，及时洞察行业变化，因为它时刻都在以惊人的速度发展。
　　DejanMilojicic：摩尔定律对GPU性能和内存占用有何影响？
　　BillDally：摩尔定律认为，晶体管成本会随时间逐年降低。今天，集成电路上可容纳的晶体管数量确实越来越多，芯片制程也实现了从16纳米到7纳米的飞跃，集成电路上的晶体管密度越来越大，但单个晶体管的价格却并未降低。因此，我认为摩尔定律有些过时了。
　　尽管如此，集成电路上能容纳更多的晶体管仍是一件好事，这样我们就能够建造更大规模的GPU。虽然大型GPU的能耗也会更高，价格也更加昂贵，但这总归是一件好事，因为我们能够构建一些从前无法构建的产品。
　　DejanMilojicic：如果开发者比较重视PyTorch这样的框架，那么他们应该从硬件的进步中学习什么来让自己的深度学习模型运行更高效？
　　BillDally：这个问题很难回答。框架在抽象硬件方面做得很好，但仍然有一些影响模型运行速度的因素值得研究。我们可以尝试去做的是，当想出一项更好的技术时，比如更好的数值表示方法，可以尝试将各种不同的技术与框架相结合，看看哪种方法更加有效，这是研发工作不可或缺的环节。
　　DejanMilojicic：英伟达是否正在实验新的封装方法？
　　BillDally：我们一直在对各种封装技术进行各种实验，弄清楚它们能做什么和不能做什么，以便在合适的时机将它们部署到产品。比如其中一些项目在研究多芯片模块，用焊接凸点、混合键合做芯片堆叠，其实有很多简洁的封装技术。
　　DejanMilojicic：英伟达的TensorCore和谷歌的TPU相比，谁更胜一筹？
　　BillDally：我们对谷歌最新的TPU并不了解，但他们之前推出的TPU都是专用引擎，基本上都内置了大型的乘加器阵列。
　　TPU独立的单元来处理非线性函数和批量归一化（batchnorm）之类的事情，但我们的方法是建立一个非常通用的计算单元流式多处理器（SM），只需非常通用的指令就可以让它做任何事情，然后再用TensorCore来加速矩阵乘法部分。因此，TensorCore和谷歌的TPU都有类似的乘加器阵列，只是我们使用的阵列相对较小。
　　DejanMilojicic：英伟达最大的对手是谁？
　　BillDally：英伟达从来不跟其他公司比较，最大的对手就是我们自己，我们也在不断地挑战自己，我认为这才是正确的态度。如果我们一味地把其他人视作竞争对手，反而放缓我们前进的脚步。不必过多关注其他人在做什么，我们真正应该关注的是哪些事情是可能实现的。我们所做的事就像在追求光速，我们更关注怎样才能做到最好，以及距离光速还有多远，这才是真正的挑战。
　　DejanMilojicic：你对量子计算有何看法？量子模拟是深度学习挑战的自然延伸吗？
　　BillDally：2021年3月，我们发布了一款名为cuQuantum的软件开发工具包。Google之前也研制出了具有53个量子比特的计算机，并称自己实现了量子优越性。一些传统计算机无法完成的计算，用cuQuantum在五分钟内就能完成了。所以，如果想真正做到精准的量子算法，而不是今天的嘈杂中型量子（NoisyIntermediateScaleQuantum，NIST）计算，GPU应该是最佳选择。
　　英伟达的传统GPU计算机是目前最快的量子计算机之一，阿里巴巴也在类似的经典计算中取得了不错的成绩，这恰好印证了我们的结论。我们对量子计算的看法是：英伟达不会因为这一技术领域的任何动态而感到惊讶。
　　实际上，我们还成立了一个研究小组来追踪量子计算领域的前沿动态，比如IBM宣布研制出了具有127个量子比特的芯片。我们也一直在跟踪量子比特数量和相干时间（coherencetime）等方面的进展。
　　考虑到所需的量子比特数量、量子比特的准确性、噪音对量子的干扰以及量子纠错所需的开销，我认为未来五到十年内，量子计算都无法实现商用。
　　我最乐观的看法是，大概五年后，人们将开始进行量子化学模拟，这应该最有可能做到的。但在那之前，还有很多物理上的难题需要解决。很多人还没有意识到，量子计算机就是模拟计算机，而模拟计算机需要非常精确且易于隔离，否则任何与环境的耦合都会导致结果不一致。
　　DejanMilojicic：在你看来，机器何时才能达到通用人工智能（AGI）的水平？
　　BillDally：我对这个问题的看法比较消极。试看一些比较成功的人工智能用例，例如神经网络，其实它本质上就是通用函数拟合器。神经网络可以通过观察来学习一个函数，所以它的价值还是体现在人工感知而不是人工智能。
　　虽然我们目前已经取得了不错的成果，但还是可以继续研究如何使用人工智能和深度学习来提高生产力，从而改善医疗、教育，给人们带来更加美好的生活。其实，我们不需要AGI来做到这些，而应该重视如何最大程度地利用现有技术。距离AGI还有很长的路要走，我们也必须弄清到底什么是AGI。
　　（原文：https：www。youtube。comwatch？v2gsnGPaV4HY）
　　欢迎下载体验OneFlowv0。8。0最新版本：https：github。comOneflowInconeflow

小米13Ultra提前曝光，雷军表示下一代旗舰面向全球发售最近随着苹果的发售预热，小米也做了反攻，提前爆料下一代旗舰的产品。近来，雷军在Twitter上转发了一篇外媒对于小米12SUltra的文章，同时表示下一次Ultra旗舰手机将在我们美国又下手！限制出口两款芯片，商务部外交部回应！这些A股应声大涨药品网络销售新规出台，有何影响？点蓝字关注，不迷路A股今日缩量回调，沪指再度失守3200点，创业板指跌1。4港股大幅下挫，恒指恒指科技指数盘中均跌超2。具体来看，沪指深成指早盘探底回升，午后再度回落走低创业板指尾百病由痰生，痰多难除？中医4种方法，理气化痰一身轻松咳咳呸呸，总感觉嗓子里有痰，老想着清清嗓子，这可怎么办？中医上认为，痰多百病生，痰不仅是人体内的一种病理性产物，还是一种致病物质，我们身体的很多病症都是由于痰在作祟，它堵在某个部位九月新时尚发型14款，利落有型很百变，看完都想试一试既然你我相遇，那就是缘分，关注时尚，关注发型，关注刘丽丽不知不觉已经进入了九月中旬，天气中午还是有点热，但早晚已经比较舒服了，这么好的季节，我们是该好好捯饬一下自己的发型了，九月新游灵岩寺游灵岩寺有感布建忠（小布丁）千峰浅黛，万壑轻烟。泰岳山威重，灵岩古韵浓。福地自古百泉涌，高高日月石路长。晨钟破晓，暮鼓揽月。净土绝尘境，朗公画中禅。沐浴登门礼百佛，虔诚入殿释凡心。兵圣孙武故里，内有山东第一强镇，名气大过所属地级市今天跟大家分享的这个千年古县，地处山东中北部，南靠临淄，东与寿光接壤，西与博兴毗邻，东北部濒临渤海莱州湾。西周时县境为姜太公封地齐国的辖地，自秦朝设县，意为海滨广斥，饶于鱼盐，隋移十梅庵的梅你最怀念家乡的什么十梅庵的梅在山下，十梅庵赏梅到梅园。每年春节过后不长时间梅园里梅花盛开，姹紫嫣红，大量游客都会来此观赏一睹为快，生于斯长于斯我当然也会去。风雨送春归，飞雪迎春到。外国人免入，都去过了就超过了99的地球人在我国有几个景点是不对外国人开放的，他们分别是一。河南老君山被誉为世界第一仙山，是一座真实存在的云顶天宫，是外国人永远都到达不了的人间仙境。金秋时节红叶满山，飘雪时节犹如仙境。传说九寨沟遐思作者毕开恒九寨沟，一个童话的世界，吸引了多少人络绎不绝，接踵前往。腾格尔一首神奇的九寨更是把这童话的世界传遍五洲四海。久慕其名，一个暑热未消的九月，我和集团总经理姜存阳结伴，一起跟童话世界的感觉黄岗梁秋色内蒙古的克什克腾旗我从2008年以后陆陆续续去过6次。昨天发了一个总的攻略又到秋天最好的时候，克什克腾可以这样玩七日游攻略。想一想，应该把已经搞完的克什克腾相关帖子都发上来。这些年贵州旅行之小七孔头条创作挑战赛这段时间的天气简直燃爆所有人的心，半个多月一直保持36度左右的高温，实在让人有种出逃的强烈愿望。喜欢旅居的朋友都知道，从一个呆腻的地方换到一个陌生的城市生活，这是我们

<<<<<<－>>>>>>

三年多了没有来月经了，现在又来了，打B超又没有看出毛病，是什么原因？有可能内分泌紊乱了，卵巢衰老导致功能下降。做了b超没有问题的话，建议去找比较权威的中医看看把把脉，看看有没有气虚血虚等情况，同时调整好自己心态，保持欢快，积极向上的正面情绪。女人生小孩积食吃什么水果好？有哪些方法可以缓解呢？你好，很高兴回答你的问题。小儿积食是非常多见的，而且好多儿童常见病都跟积食，消化不良有密切的关系。那么小儿积食到底吃什么东西比较好呢？又有哪些方法可以进行调理呢？小儿积食主要是由于中国石油，总部能否迁往西安，与延长石油合并？延长石油同中国石油两者合并存在可能。但中国石油总部迁入西安那是想没有可能的事情。延长石油成立于2005年9月，是陕西省整合地方石油开采企业成立的企业集团，也为陕西经济发展做出来巨大胃不好的人，早餐可以经常吃这几样食物胃不好的人，早餐可经常吃这四种食物，或能逐渐养胃1南瓜在古书上曾记载南瓜性温，味甘，入脾胃经，可以补中益气消炎杀菌止痛。南瓜里面含有丰富的多糖，能够提高机体免疫功能，促进细胞因子生这肉遇到别手软，全身是宝，清热健脾，滋阴补肾，随手一炒，鲜美头条创作挑战赛导读这肉遇到别手软，全身是宝，清热健脾，滋阴补肾，随手一炒，很鲜美！生活在农村，每家每户都会养一些鸡鸭，可以消耗家里的剩菜剩饭，将它们养大了之后可以煮起来给家人补身体春笋的3种美味吃法，腌笃鲜滋润，凉拌笋脆嫩，肉片炒笋最下饭春笋有春季第一鲜的美称，其味道清甜鲜嫩，含丰富的水分植物蛋白质钙磷铁等人体必需的营养成分和微量元素，低脂肪多粗纤维，有助消化促进肠胃蠕动的功能。其丰富的维生素A对眼睛和皮肤也有好处纯欲风谁能拒绝一款干净又高级的美甲呢头条创作挑战赛高端的猎人往往以猎物的身份出现。美甲的尽头是裸色。素白的小手，粉嫩的指尖，仿佛是在寒冷中瘦弱的小花，摇摇欲坠，让人不禁想要保护。仿佛是天生的甲片颜色，纤手素衣，不沾染烤箱空气炸锅保姆式菜谱教程，好吃到停不下来！新奥良尔烤翅鸡翅中9只蜂蜜1茶匙料酒1汤匙生抽2汤匙新奥尔良烤翅腌料2汤匙玉米油14茶匙做法1鸡翅中洗净沥干，表面划几刀，方便入味。2倒入料酒生抽蜂蜜新奥尔烤翅腌料，抓拌均匀，盖上航拍江西龙虎山云海景观群山巍峨云雾缭绕来源中国新闻网16日，航拍江西龙虎山雨后放晴现云海景观。舒鹏摄16日，航拍江西龙虎山雨后放晴现云海景观。舒鹏摄16日，航拍江西龙虎山雨后放晴现云海景观。舒鹏摄在航拍镜头下，整个龙虎双休日天气温暖舒适，踏青赏花约起来！湛江旅游官方微信公众号关注这两天，我市天气逐渐放晴午后阳光补温，气温小幅上扬春天的气息越来越浓本周的双休日天气温暖舒适，适合出行闲暇之际约上三五知己一起踏青赏花享受这来之不易的明媚楼市冰冻三尺，这一周就热化了？要说，中国楼市哪里最热，那一定非中介们的朋友圈莫属。这几天，一句疫情三年，涨回来只用了一周。的话火遍网络，直刺人们神经，朋友圈里的中介们纷纷转发。与此同时，中介们还贴上了一段官媒的

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网