GPU 发展日新月异,不仅和电脑普通用户密切相关,而且现在俨然已经成为全球驱动计算性能的重要产品,NVIDIA 则是这个行业当下的佼佼者,在独立 GPU 份额方面是处于第二位的 AMD 的 5 倍。 如此强劲的竞争态势,在高收益高回报的同时,业界也是虎视眈眈,AMD 和 Intel 都透过各种方式向外界透露了它们下一代 GPU 的部分特性。例如 AMD 方面是引入辅片(chiplet)技术,将 GPU 的部分功能拆开,然后以不同的最佳化制程生产并最终放到同一枚 GPU 芯片上。而 Intel 则简单暴力许多,以重新打造的 Xe 架构为基础,衍生除了 Xe-HPC 版高性能 GPU,提供最多 4 片 GPU 裸芯集成到同一枚芯片上。 NVIDIA 其实很早就有多芯片方案,不知道大家还是否记得 NVIDIA 多年前曾经提起的"梯队"项目: NVIDIA 梯队项目 不过梯队或者说 Echelon 其实只是 NVIDIA 公布过的面向 E 级超算的解决方案之一,台底下显然还有我们未曾了解的方案,例如今年发布的 Grace 处理器,它虽然只是一个纯 CPU 方案,但是内部集成了强大的一致性互连能力,可以和多枚 GPU 实现非常夸张的高速互连,彻底解决了 CPU 和 GPU 之间的数据交换效率。 但是故事并未结束,根据论文网站 arxiv 上的一篇 NVIDIA 发表的论文《GPU Domain Specialization via Composable On-Package Architecture》,该公司手头还有一个名为 COPA-GPU 的项目,这个项目的特别之处在于实现了高度模块化的 GPU 组合设计: 组合灵活的 COPA-GPU 模块化设计 COPA-GPU 是可实现灵活组合的多模块化 GPU 方案,能针对不同的需求实现围绕 GPU 的不同的功能模块组合。 例如上图中,左侧是基本的 GPU 设计,右上是集成 HBM 内存的方案,右下则是集成大容量高速缓存的方案,其中后者有点类似于 AMD 的 Infinity Cache。 按照 NVIDIA 这篇论文的介绍,透过 COPA-GPU,可以对基础 GPU 实现"强化"深度学习能力,此时可以达到 4 倍的内存带宽、32 倍的片上封装缓存、2.3 倍的内存带宽,而且可以支持规模缩减的高性能计算设计。 和传统的 GPU 设计相比,深度学习"优化"的 COPA-GPU 可以做到 16 倍的缓存容量、1.6 倍的内存带宽,每个 GPU 的训练和推理性能分别提升了 31% 和 35%,在横向训练的应用场景里,GPU 的数量可以籍此减少 50%。 按照目前的论文来看,COPA-GPU 的最大亮点是高速缓存架构的多样性设计。 论文中提到了一个代号 GPU-N 的 NVIDIA 前瞻 GPU 设计,该设计提供了 24 TFLOPS FP32 的通用计算性能,是目前 A100 的 1.2 倍,但是其 FP16 性能已然提升到了 779 TFLOPS,是 A100 的 2.5 倍,L2 Cache 达到了 60MiB,内存带宽更是跃升至 2.7TB/s 的水平(是搭配 HBM2 内存的 A100 的 1.72 倍)。 考虑到单精度性能变化不大,我相信 GPU-N 只是一个研究用的设计,在论文撰写的时候以 FPGA 的方式运行,但是假以时日,它的某些特性很可能会应用到 NVIDIA 的下一代 GPU 上,结合 COPA-GPU 的设计,相信 NVIDAI 在下一代竞争中不会处于落后的状态。