GPU发展和现状是什么样的?
GPU,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器,与CPU类似,只不过GPU是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必需的。随着人工智能的发展,如今的GPU已经不再局限于3D图形处理了,GPU通用计算技术发展已经引起业界不少的关注,事实也证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至于上百倍于CPU的性能。 GPU的特点是有大量的核(多达几千个核)和大量的高速内存,最初被设计用于游戏,计算机图像处理等。GPU主要擅长做类似图像处理的并行计算,所谓的"粗粒度并行(coarse-grainparallelism)"。这个对于图像处理很适用,因为像素与像素之间相对独立,GPU提供大量的核,可以同时对很多像素进行并行处理。但这并不能带来延迟的提升(而仅仅是处理吞吐量的提升)。比如,当一个消息到达时,虽然GPU有很多的核,但只能有其中一个核被用来处理当前这个消息,而且GPU核通常被设计为支持与图像处理相关的运算,不如CPU通用。GPU主要适用于在数据层呈现很高的并行特性(data-parallelism)的应用,比如GPU比较适合用于类似蒙特卡罗模拟这样的并行运算。
CPU和GPU本身架构方式和运算目的不同导致了CPU和GPU之间的不同,正是因为GPU的特点特别适合于大规模并行运算,GPU在"深度学习"领域发挥着巨大的作用,因为GPU可以平行处理大量琐碎信息。深度学习所依赖的是神经系统网络——与人类大脑神经高度相似的网络——而这种网络出现的目的,就是要在高速的状态下分析海量的数据。例如,如果你想要教会这种网络如何识别出猫的模样,你就要给它提供无数多的猫的图片。而这种工作,正是GPU芯片所擅长的事情。而且相比于CPU,GPU的另一大优势,就是它对能源的需求远远低于CPU。GPU擅长的是海量数据的快速处理。 工业与学术界的数据科学家已将GPU用于机器学习以便在各种应用上实现开创性的改进,这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。尤其是深度学习,人们在这一领域中一直进行大力投资和研究。深度学习是利用复杂的多级「深度」神经网络来打造一些系统,这些系统能够从海量的未标记训练数据中进行特征检测。 虽然机器学习已经有数十年的历史,但是两个较为新近的趋势促进了机器学习的广泛应用:海量训练数据的出现以及GPU计算所提供的强大而高效的并行计算。人们利用GPU来训练这些深度神经网络,所使用的训练集大得多,所耗费的时间大幅缩短,占用的数据中心基础设施也少得多。GPU还被用于运行这些机器学习训练模型,以便在云端进行分类和预测,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。 将GPU加速器用于机器学习的早期用户包括诸多规模的网络和社交媒体公司,另外还有数据科学和机器学习领域中一流的研究机构。与单纯使用CPU的做法相比,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,因此GPU已经成为数据科学家处理大数据的处理器。
GPU其实就是显卡,是英文Graphics Processing Unit的缩写。大型设备GPU有两个厂商,NVIDIA以及ATI,一个被称为N卡,一个被称为A卡。近几年随着手机等智能设备的快速发展,移动端低功耗GPU越来越受到重视,目前苹果、高通的GPU都比较强悍,华为也在GPU方面加速努力。
ATI显卡
ATI公司成立于1985年,创始人为何国源以及另外两个华人。1985年10月ATI使用ASIC技术开发出了第一款图形芯片和图形卡,1992年4月ATI发布了Mach32图形卡集成了图形加速功能,1998年4月ATI被IDC评选为图形芯片工业的市场领导者,但那时这种芯片还没有GPU的称号,很长的一段时间ATI都是把图形处理器称为VPU,直到AMD收购AT之后其图形芯片才正式采用GPU的名字。
NVIDIA显卡
NVIDIA是一家人工智能计算公司,创立于1993年,创始人及CEO为美籍华人Jensen Huang(黄仁勋)。1999年,NVIDIA首先提出GPU概念,从此 NVIDIA显卡的芯就用GPU来称呼,NVIDIA极大地推动了PC游戏市场的发展,并重新定义了现代计算机图形技术,彻底改变了并行计算。
苹果自研GPU
苹果之前一直都是跟Imagination合作,为了使自己的硬件和软件更加完美的融合,同时不受供应商卡脖子,从A11芯片开始,苹果正式抛弃Imagination而改用自研GPU。目前苹果的GPU性能也是第一梯队的,苹果移动设备的3D显示、AR、大型游戏还是比较出色的。
高通GPU
目前高通骁龙移动平台集成的Adreno GPU是应用较为广泛的,因为大部分国产手机都采用骁龙处理器,Adreno也是可以和同期苹果A系列芯片集成GPU一教高下的存在。Adreno的前身是ATI Imageon系列低功耗GPU,ATI被AMD收购后,AMD将移动设备相关的自从打包卖给了高通。
ARM 的Mali GPU
海思麒麟、三星Exynos、联发科Helio等芯片都采用了ARM的GPU解决方案。这些SOC通常将多个GPU核心封装在一个更大规模的GPU矩阵中,这也导致功耗及发热问题的出现。目前三星和华为应该都在进行自研GPU,走上苹果的道路。
移动GPU现状
目前移动端GPU性能还存在一定短板,随着5G的到来,未来会有更多的应用需要在移动端体现,AR、VR、大型游戏等等,都需要强大的GPU支持。未来谁能掌握最强的GPU技术,谁就能获得更多的优势和关注度,各厂商也都在加大自研投入避免受到供应商的影响。
高性能GPU
除了台式机、笔记本等常见领域的GPU,像人工智能及深度学习领域,数据科学家和研究人员可以用高性能GPU解析 PB 级的数据;自动驾驶领域汽车可以利用强大的GPU,几乎可以在任何驾驶场景中自主观察、思考、学习和导航。另外医疗、教育、自动驾驶、娱乐、影视等众多领域越来越智能化,并且都需要越来越强大的GPU作为技术支持。
总之,无论是移动端还是大型设备,人们对GPU的性能要求越来越高,GPU的发展也会越来越快,越来越智能。
GPU未来趋势
GPU的未来方向,可以从NVIDIA 2019年的中国GTC(GPU technology conference)大会窥见一斑。GTC会议是NVIDIA近年来每年举办的一场GPU技术大会,汇集全球顶级的GPU专家,提供GPU领域颇具热门话题的相关培训和演讲。在这个大会上展示的是全球GPU研究人员的最新的研究和应用方向,通过GTC会议可以窥见GPU的未来。2019年中国GTC大会设置了两大主题,分别是AI和图形,两个大主题之下各自又有一些小主题,
GPU的未来趋势无外乎3个:大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)。虽然GPU的最基本功能-显示技术在大会主题中没有"显式"的提及,但是众多应用方向均与之密切相关,譬如:智慧医疗和生命科学、游戏、虚拟现实/增强现实、工业设计与工程、自动驾驶与交通等,因此支持更加清晰和动感的高清显示是无需强调的未来趋势。此外,由于GPU越来越广泛地应用到手机、终端、边缘计算节点等嵌入式设备,所以高效能也是一个永恒的追求。
高性能计算
NVIDIA最新发布的Tesla V100s高性能计算GPU,集成5120个CUDA Core,640个Tensor Core,采用32 GB HBM2显存,显存带宽达1134GB/S,单精度浮点计算能力达16.4 TFLOPS。
GPGPU在图形GPU的基础上进行了优化设计,使之更适合高性能并行计算,加上CUDA多年来建立的完整生态系统,其在性能、易用性和通用性上比图形GPU更加强大。基于这种特性,GPGPU将应用领域扩展到了图形之外,在自动驾驶、智慧医疗、生命科学、深度学习、云计算、数据处理、金融等方面均 得到广泛应用,关于它的科研成果和新应用模式也层出不穷。
相比CUDA,OpenCL具有更好跨平台性和通用性,得到更多GPU硬件厂家的支持,但由于其对开发者的友好程度不高,直接应用反而不多。
人工智能计算
GPU的并行处理结构非常适合人工智能计算,但传统的基于流处理器的 GPU,其流处理器一般只能处理FP32/FP64等精度的运算,而AI计算的精度 要求往往不高,INT4/INT8/FP16往往可满足绝大部分AI计算应用。针对AI应用,NVIDIA设计了专用的Tensor Core用于AI计算,支持INT4/INT8/FP16等不同精度计算,RTX 2080集成了544个Tensor Core,INT4计算能力可达455 TOPS。
基于NVIDIA GPU的AI应用绝大多数情况下应用在服务器端、云端,基于GPU的AI计算往往具有更好的灵活性和通用性,在数据中心、云端等环境下具有更广泛的适用性。与之相对应的,在分布式应用领域AI计算更倾向于独立的面向特定应用领域的专用芯片,而不依赖于GPU,如手机、平板等移动端SOC都集成了专用的NPU IP。
光线追踪-更加逼真的图形展现
传统的图形GPU都使用光栅化技术显示3D物体,对物体进行3D建模,将其分割成若干三角形,三角形的细粒度很大程度上决定最后的成像质量,然后将三角形转换为2D屏幕上的像素点并分配初始颜色值,接下来进行像素处理,基于场景修改像素颜色,并将纹理应用于像素,从而生成像素的最终颜色[9]。
光线追踪与光栅化的实现原理不同,它最早由IBM的Arthur Appel于1969年在"Some Techniques for Shading Machine Renderings of Solids"[10]中提出,光线追踪通过从观察点对每一个像素发射一条光线并找到在世界场景中阻挡光线路径的最近物体来渲染场景,光线有两种,第一种是视者发射的光线,来寻找场景中的交点,另一种是从交点发到灯光的阴影射线,看自身是否是处于阴影当中,光线追踪的一个显著优点是能够处理不平整的表面和固体。
2018年NVIDIA发布的RTX 2080 GPU,采用Turing架构,在GPU中集成了 68个独立的 RT(ray tracing) Core ,用于光线追踪,光线处理能力达到了10 Giga/S,1 080P@60Hz需要处理的光线约为6Giga/S,实测基于光线追踪的应用其帧率大致在50FPS左右,基于RTX 2080的光线追踪达到了可用的程度,光线追踪对于反射和阴影有着更逼真的处理效果,尽管目前仍然是采用光线追踪和传统光栅图形处理相结合的方式来进行图形渲染,但其效果已经远超传统光栅图形处理,对于游戏、电影等追求逼真光影效果的应用,光线追踪能提供电影级画质的实时渲染,带来视觉效果上质的飞跃。
除了游戏、电影方面的应用,产品设计师和建筑师也可以享受到光线追踪带来的好处,借助光线追踪工具和高性能GPU,可以实时生成逼真的产品模型,提高设计迭代速度。
NVIDIA的下一代图形GPU,采用Ampere架构,计划于今年发布,相信在光线追踪方面带来新的提升。
GPU 原来就是为了加速 3D 渲染的,后来被拿过来做计算。▪ 现在 GPU 可以支持通用的指令,可以用传统的 C 和 C++,还有Fortran 来编程。▪ 现在单个高端 GPU 的性能已经达到了传统多核 CPU 集群的性能▪ 有的应用通过 GPU 加速相比传统的多核 CPU 来说可以达到 100X 的加速。对某些特定应用来说 GPU 还是最适合。
GPU人工智能的重要组成部分 市场空间广阔
GPU目前主要作为显卡的计算核心,主要解决图形渲染问题。GPU具有较为完整的技术生态,其具有高运算性能硬件、驱动支撑、API接口、通用计算引擎/算法库,因此成为一种交易使用的工具。
目前的GPU可被分为PCGPU、服务器GPU与移动GPU,其中PCGPU既有独立也有集成GPU,服务器GPU是专为计算加速或深度学习应用的独立GPU,移动GPU一般都是集成GPU。随着人工智能的快速兴起,拥有强运算能力和计算速度的GPU迎来了新的发展机遇,预测到2023年中国GPU服务器市场规模将达到45亿美金,未来5年整体市场年复合增长率为28%。
根据新思界产业研究中心发布的《2020-2025年GUP行业市场深度调研及投资前景预测分析报告》显示,在全球中,GPU应用主要包含图形渲染、游戏、电子设备应用,其中图形渲染是GPU应用最广的领域,主要包括PC端的图形处理和移动端的图形处理。移动GPU是提升智能手机性能的核心部件,能够决定设备的界面流程程度、游戏流畅程度等参数,已广泛应用于智能手机、DTV和平板电脑等移动设备。近几年电子游戏行业快速发展,在这一背景下,GPU游戏专用设备需求将有所回升。
我国GPU发展较晚,目前产品与外资品牌有所差距,保守估计国内GPU芯片落后当前主流GPU芯片约6年时间。考虑到产品性能,目前国内市场主要以进口为主,短期之内GPU在市场化竞争的民用市场短期内较难突破。目前在全球中GPU主要品牌有NVIDIA和AMD、ARM、Imagination等公司。
我国对于信息安全领域高端产品自主化需求十分迫切,国务院于2015年5月发布《中国制造2025》,明确提出2020年中国集成电路内需市场自制率将达40%,2025年将更进一步提高至70%的目标,因此预计2025年国产GPU芯片市场空间约为50亿美元,我国GPU行业发展潜力较大。
我国中高端GPU芯片市场需求旺盛,主要在个人计算机、云计算、人工智能、安防监控等领域有着广泛的应用,但在高端产品方面,我国市场近乎空白。从厂商来看,浪潮、华为和曙光在出货量和销售额方面均位列市场前三。国内GPU行业发展起步较晚,尚处于追赶阶段。景嘉微、中船系采取自主研发的方法进行产品开发,能够对自主开发的GPU进行迭代和升级。中科曙光为代表技术引进系。
新思界产业分析人士表示,GPU作为人工智能设备重的关键产品,在智能化时代中,市场需求持续攀升,行业发展潜力较大。从目前来看,我国GPU行业主要集中在中低端产品,高端产品接近空白,未来行业需要不断改进,向高端化发展。