高成本是老黄不用HBM显存的唯一原因?
说成本高之前, 先要搞清楚 HBM 是什么东西:
核心PCB/互联硅片/核心/HBM显存
首先内存通常都是并行总线, 频率越高, 位宽越宽, 那么带宽越大.
但是 DRAM 颗粒如果要做到高带宽, 通常就意味着: PCB 更复杂的布线:
更大的单位访问功耗: 这点大家都知道了, 3090 1/3 的功耗都在显存颗粒上 这点放在 EPYC 这样的 CPU 也是同样的, 插更多内存, 设置更高频率, IOD 增加的功耗就会挤占 CPU 的功耗
所以为了减少 PCB 层面上带来的更多功耗损失, 减少显存颗粒数量, 并且做进更多总线, 就出现了两种技术: 硅互联技术: 硅片对比 PCB 能做到更大的密度, 从而满足高密度、高频率下的通讯、供电需求, 也有着更高的能效 TSV 硅穿孔技术: 让 HBM DRAM 颗粒能够堆叠起来, 好比让每一层都有自己独立的电梯(引脚)
但是 HBM 带来的问题可不只是「贵」这么简单.
众所周知老黄出名的不止有 GPU, 还「刀法」. 所谓刀法就是仔细调整产品的规格, 从而实现在某一个价格区间对比竞争对手的价格优势, 有点类似手机高中低端的战略布局, 因为市场本身就是如此.
但是 HBM 的刀法就没有那么简单了: 首先 HBM 底层硅片和 GPU 规格是对应的, 换句话说做多种 GPU 规格很吃亏 其次 HBM DRAM 不能像 GDDR 颗粒一样留空, 然后搭配光栅和 CU 的裁剪; 即便可以减少层数降低容量和位宽, 但是这个刀法显然比 GDDR 留空麻烦的多, 因为 DRAM 底下还有一层控制器
所以到现在, AMD Nvidia 都没出过太多 HBM 卡. AMD 的 HBM 卡相当一部分是半定制的, 卖游戏卡纯粹是当时 Navi 没出来, 现在看的话这些卡因为矿超都涨飞了: R9 Fury X: 计算卡下放, 被 NV 吊打 Vega 64: 计算卡下放, Apple 半定制, 勉强和 1080 竞争 Vega M: Intel 半定制, 本身还是北极星架构, 坑爹 DX12_0, 现在驱动更新都没了 Vega 20: Apple 半定制, 反响不错, 能和 Navi 拼能效和专业性能 Vega II: 计算卡下放, Apple 半定制, 7nm 先进工艺, ETH 挖矿 90MH/s, 价格已经上万 Mac Pro 的 MPX Module 打个折后瞬间值回票价 MI100: 纯正 CDNA 计算卡, 功耗比以往大幅度下降, 最近大卖 Navi 5600M: Apple 定制, 7nm 先进工艺, 大幅度降低了待机功耗(外接显示器时强制开启独显)的同时大幅度提升性能.
而上面这些基本是所有 HBM 卡了, 可以看到基本是服务器/Apple这边的定制, 拿出来当游戏卡纯粹是 AMD 没有更好的高端卡, 而注重中端卡, RX580/5700XT 就是这个思想的体现. 到了后面由于 AMD 只用 TSMC 的 N7, 高昂的流片成本注定不会做太多 Chip.
而老黄就丧心病狂了, 一个架构不仅好多 chip, 而且切出的 SKU 也是数不过来, 所以别说 HBM 了, 就 Ampere 架构, TSMC 的先进架构都不上, 选择了流片更便宜的 Samsung 8nm:
至于老黄的 HBM 卡, 就是给高密度计算集群用的, 自然用的也是当时最好的 N7P, 当然最近也有批 GA100 出来挖矿那估计就是客户不要的硅渣了, 相当合理.
再后来的事情大家也知道了, AMD 自己也不高兴用 HBM 放消费线, 但是 GDDR6 功耗感人, 做大核心显存带宽不够可是大问题.
所以顺带就利用了先进工艺高密度的优势, 借助游戏这类应用的局部性原理, 开创性的设计了 Infinity Cache, 总而提升平均带宽的同时降低功耗.
理论上 6000 系列的显存带宽只比 5000 系列高了 20%, 而 ETH 这类的挖矿算法完全取决于 DAG(目前 4.3GB 左右)的平均带宽, Infinity Cache 那点 256MB 没啥帮助, 所以矿工首选仍然是 5700 和 30 系显卡. 主要原因就是供应足, 核心功耗较低, 剩下 GDDR6 的功耗没啥好说的, 和利润就是正相关. 而 HBM 卡基本都是存量, 之前为了黑果上 Vega II 的估计都很开心, 年度理财产品.
至于买不到的原因, 之前 Zen 3 milan 被包圆, 后来 MI100 被美国国防部包圆(GCN 好像很多人看不起, 但是 CDNA 功耗是真的低, 而且 CDNA 卡没有任何 Display/Media, 其实面积利用率还好, 而且 API 不用看老黄脸色), 所以整个 7nm 产品真的可以用「空气卡」「空气U」形容.