陆玉春 特大号
按:这篇雄文的编辑是HUAWEI2012实验室网络专家陆玉春博士,首发于HUAWEI「黄大年茶思屋」,堪称史上最全英伟达AI芯片路线图分析与推演。因为文章的发表时间比英伟达最新Blackwell系列GPU早了3个月,所以文中对B100的推演与实际产品并不完全吻合,但并不影响陆玉春博士分析文章的含金量。
以下为《NVIDIA AI芯片演进解读与推演》全文:
在2023年10月的投资者会议上,NVIDIA(英伟达)展示了其全新的GPU发展蓝图[1]。
与以往两年一次的更新节奏不同,这次的路线图将演进周期缩短至一年。
预计在2024年,NVIDIA将推出H200和B100 GPU;到2025年,X100 GPU也将面世。
其AI芯片规划的战略核心是“One Architecture”统一架构,支撑在任何地方进行模型训练和部署,无论是数据中心还是边缘设备,无论是x86架构还是Arm架构。
其解决方案适用于超大规模数据中心的训练任务,也可以满足企业级用户的边缘计算需求。
AI芯片从两年一次的更新周期转变为一年一次的更新周期,反映了其产品开发速度的加快和对市场变化的快速响应。
其AI芯片布局涵盖了训练和推理两个人工智能关键应用,训练推理融合,并侧重推理。
同时支撑x86和Arm两种不同硬件生态。在市场定位方面,同时面向超大规模云计算和企业级用户,以满足不同需求。
NVIDIA旨在通过统一的架构、广泛的硬件支撑、快速的产品更新周期以及面向不同市场提供全面的差异化的AI解决方案,从而在人工智能领域保持技术和市场的领先地位。
NVIDIA是一个同时拥有 GPU、CPU和DPU的计算芯片和系统企业。通过NVLink、NVSwitch和NVLink C2C技术将CPU、GPU进行灵活连接组合形成统一的硬件架构,并于CUDA一起形成完整的软硬件生态。
在AI计算芯片架构方面,注重训练和推理功能的整合,侧重推理。围绕GPU打造Arm和x86两条技术路线。
在NVIDIA的AI路线图中,并没有显示提及Grace CPU的技术路线,而是将其纳入Grace+GPU的SuperChip超级芯片路标中。
NVIDIA Grace CPU会跟随GPU的演进节奏并与其组合成新一代超级芯片;而其自身也可能根据市场竞争的需求组合成CPU超级芯片,实现“二打一”的差异化竞争力。从需求角度来看,CPU的技术演进速度并不像GPU那样紧迫,并且CPU对于成本更加敏感。
CPU只需按照“摩尔”或“系统摩尔”,以每两年性能翻倍的速度进行演进即可。而GPU算力需要不到一年就要实现性能翻倍,保持每年大约2.5倍的速率增长。
这种差异催生了超级芯片和超节点的出现。NVIDIA将延用SuperChip超级芯片架构,NVLink-C2C和NVLink互联技术在NVIDIA未来的AI芯片架构中将持续发挥关键作用。其利用NVLink-C2C互联技术构建GH200、GB200和GX200超级芯片。
更进一步,通过NVLink互联技术,两颗GH200、GB200和GX200可以背靠背连接,形成GH200NVL、GB200NVL和GX200NVL模组。NVIDIA可以通过NVLink网络组成超节点,通过InfiniBand或Ethernet网络组成更大规模的AI集群。
在交换芯片方面,仍然坚持InfiniBand和Ethernet两条开放路线,瞄准不同市场,前者瞄准AI Factory,后者瞄准AIGC Cloud。但其并未给出NVLink和NVSwitch自有生态的明确计划。
224G代际的速度提升,可能率先NVLink和NVSwitch上落地。以InfiniBand为基础的Quantum系列和以Ethernet基础的Spectrum-X系列持续升级。预计到2024年,将商用基于100G SerDes的800G接口的交换芯片;而到2025年,将迎来基于200G SerDes的1.6T接口的交换芯片。其中800G对应51.2T交换容量的Spectrum-4芯片,而1.6T则对应下一代Spectrum-5,其交换容量可能高达102.4T。
从演进速度上看,224G代际略有提速,但从长时间周期上看,其仍然遵循着SerDes速率大约3到4年翻倍、交换芯片容量大约2年翻倍的规律。虽然有提到2024年Quantum将会升级到800G,但目前大家只能看到2021年发布的基于7nm工艺,400G接口的25.6T Quantum-2交换芯片。
路线图中并未包含NVSwitch 4.0和NVLink 5.0的相关计划。有预测指出NVIDIA可能会首先在NVSwitch和NVLink中应用224G SerDes技术。NVLink和NVSwitch作为NVIDIA自有生态,不会受到标准生态的掣肘,在推出时间和技术路线选择上更灵活,从而实现差异化竞争力。
SmartNIC智能网卡/DPU数据处理引擎的下一跳ConnectX-8/BlueField-4目标速率为800G,与1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路标仍不明晰,NVLink5.0和NVSwitch4.0可能提前发力。
NVIDIA ConnectX系列SmartNIC智能网卡与InfiniBand技术相结合,可以在基于NVLink网络的超节点基础上构建更大规模的AI集群。
而BlueField DPU则主要面向云数据中心场景,与Ethernet技术结合,提供更强大的网络基础设施能力。
相较于NVLink总线域网络,InfiniBand和Ethernet属于传统网络技术,两种网络带宽比例大约为1:9。
例如,H00 GPU用于连接SmartNIC和DPU的PCIe带宽为128GB/s,考虑到PCIe到Ethernet的转换,其最大可以支撑400G InfiniBand或者Ethernet接口。
而NVLink双向带宽为900GB/s或者3.6Tbps,因此传统网络和总线域网络的带宽比为1比9。
虽然SmartNIC和DPU的速率增长需求没有总线域网络的增速快,但它们与大容量交换芯片需要保持同步的演进速度。
它们也受到由IBTA(InfiniBand)和IEEE802.3(Ethernet)定义互通标准的产业生态成熟度的制约。
互联技术在未来的计算系统的扩展中起到至关重要的作用。NVIDIA同步布局的还有LinkX系列光电互联技术。
包括传统带oDSP引擎的可插拔光互联(Pluggable Optics),线性直驱光互联LPO(Linear Pluggable Optics),传统DAC电缆、重驱动电缆(Redrived Active Copper Cable)、芯片出光(Co-Packaged Optics)等一系列光电互联技术。
随着超节点和集群网络的规模不断扩大,互联技术将在未来的AI计算系统中发挥至关重要的作用,需要解决带宽、时延、功耗、可靠性、成本等一系列难题。
对NVIDIA而言,来自谷歌、Meta、AMD、微软和亚马逊等企业的竞争压力正在加大。
这些企业在App和硬件方面都在积极发展,试图挑战NVIDIA在该领域的主导地位,这或许是NVIDIA提出相对激进技术路线图的原因。
NVIDIA为了保持其市场地位和利润率,采取了一种大胆且风险重重的多管齐下的策略。
他们的目标是超越传统的竞争对手如Intel和AMD,成为科技巨头,与谷歌、微软、亚马逊、Meta和Apple等企业并驾齐驱。
NVIDIA的计划包括推出H200、B100和“X100”GPU,以及进行每年度更新的AI GPU。
此外,他们还计划推出HBM3E高速存储器、PCIe 6.0和PCIe 7.0、以及NVLink、224G SerDes、1.6T接口等先进技术,如果计划成功,NVIDIA将超越所有潜在的竞争对手 [2]。
尽管硬件和芯片领域的创新不断突破,但其发展仍然受到第一性原理的限制,存在天然物理边界的约束。
通过深入了解工艺制程、先进封装、内存和互联等多个技术路线,可以推断出未来NVIDIA可能采用的技术路径。
尽管基于第一性原理的推演成功率高,但仍需考虑非技术因素的影响。例如,通过供应链控制,在一定时间内垄断核心部件或技术的产能,如HBM、TSMC CoWoS先进封装工艺等,可以影响技术演进的节奏。
根据NVIDIA 2023年Q4财报,该企业季度收入达到76.4亿美金,同比增长53%,创下历史新高。
全年收入更是增长61%,达到269.1亿美金的纪录。数据中心业务在第四季度贡献了32.6亿美金的收入,同比增长71%,环比增长11%。
财年全年数据中心收入增长58%,达到创纪录的106.1亿美金 [3]。
因此NVIDIA拥有足够大的现金流可以在短时间内对供应链,甚至产业链施加影响。
另外,也存在一些黑天鹅事件也可能产生影响,比如以色列和哈马斯的战争就导致了NVIDIA取消了原定于10月15日和16日举行的AI SUMMIT[4]。
业界原本预期,NVIDIA将于峰会中展示下一代B100 GPU芯片[5]。
值得注意的是,NVIDIA的网络部门前身Mellanox正位于以色列。
为了避免陷入不可知论,本文的分析主要基于物理规律的第一性原理,而不考虑经济手段(例如控制供应链)和其他可能出现的黑天鹅事件(例如战争)等不确定性因素。
当然,这些因素有可能在技术链条的某个环节产生重大影响,导致技术或者产品演进节奏的放缓,或者导致整个技术体系进行一定的微调,但不会对整个技术演进趋势产生颠覆式的影响。
考虑到这些潜在的变化,本文的分析将尽量采取一种客观且全面的方式来评估这些可能的技术路径。
大家将以“如果A那么X;如果B那么Y;…”的形式进行思考和分析,旨在涵盖所有可能影响技术发展的因素,以便提供更准确、更全面的分析结果。
此外,本文分析是基于两到三年各个关键技术的路标假设,即2025年之前。当相应的前提条件变化,相应的结论也应该作适当的调整,但是整体的分析思路是普适的。
1 NVIDIA的AI布局
NVIDIA在人工智能领域的布局堪称全面,其以系统和网络、硬件和App为三大支柱,构建起了深厚的技术护城河 [6]。
有分析称NVIDIA的H100显卡有高达90%的毛利率。
NVIDIA通过扶持像Coreweave这样的GPU云服务商,利用供货合同让他们从银行获取资金,然后购买更多的H100显卡,锁定未来的显卡需求量。
这种模式已经超出传统硬件企业的商业模式,套用马克思在资本论中所述“金银天然不是货币,货币天然是金银。”,有人提出了“货币天然不是H100,但H100天然是货币”的说法 [7]。
这一切的背后在于对于对未来奇点临近的预期 [8],在于旺盛的需求,同时更在于其深厚的技术护城河。
NVIDIA 2019年3月发起对Mellanox的收购 [9],并且于2020年4月完成收购 [10],经过这次收购NVIDIA获取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互联的能力。
面向GPU互联,自研NVLink互联和NVLink网络来实现GPU算力Scale Up扩展,相比于基于InfiniBand网络和基于Ethernet的RoCE网络形成差异化竞争力。
NVLink自2014年推出以来,已经历了四个代际的演进,从最初的2014年20G NVLink 1.0,2018年25G NVLink 2.0,2020年50G NVLink 3.0 到2022年的100G NVLink 4.0,预计到2024年,NVLink将进一步发展至200G NVLink 5.0。
在应用场景上,NVLink 1.0至3.0主要针对PCIe板内和机框内互联的需求,通过SerDes提速在与PCIe互联的竞争中获取显著的带宽优势。
值得注意的是,除了NVLink 1.0采用了20G特殊速率点以外,NVLink 2.0~4.0皆采用了与Ethernet相同或者相近的频点,这样做的好处是可以复用成熟的Ethernet互联生态,也为未来实现连接盒子或机框组成超节点埋下伏笔。
NVSwitch 1.0、2.0、3.0分别与NVLink 2.0、3.0、4.0配合,形成了NVLink总线域网络的基础。
NVLink4.0配合NVSwitch3.0组成了超节点网络的基础,这一变化的外部特征是NVSwitch脱离计算单板而单独成为网络设备,而NVLink则从板级互联技术升级成为设备间互联技术。
在计算芯片领域,NVIDIA于2020年9月发起Arm收购,希望构建人工智能时代顶级的计算企业[11],这一收购提案因为面临重大监管挑战阻碍了交易的进行,于2022年2月终止 [12]。
但是,在同年3月其发布了基于Arm的Grace CPU Superchip超级芯片 [13],成为同时拥有CPU、GPU和DPU的计算芯片和系统企业。
从业务视角看,NVIDIA在系统和网络、硬件、App三个方面占据了主导地位 [6]。
系统和网络、硬件、App这三个方面是人工智能价值链中许多大型参与者无法有效或快速复制的重要部分,这意味着NVIDIA在整个生态系统中占据着主导地位。
要击败NVIDIA就像攻击一个多头蛇怪,必须同时切断所有三个头才有可能有机会,因为它的每个“头”都已经是各自领域的领导者,并且NVIDIA正在努力改进和扩大其护城河。
在一批人工智能硬件挑战者的失败中,可以看到,他们都提供了一种与NVIDIA GPU相当或略好的硬件,但未能提供支撑该硬件的App生态和解决可扩展问题的方案。
而NVIDIA成功地做到了这一切,并成功抵挡住了一次冲击。这就是为什么NVIDIA的战略像是一个三头水蛇怪,后来者必须同时击败他们在系统和网络、硬件以及App方面的技术和生态护城河。
目前,进入NVIDIA平台似乎能够占据先机。OpenAI、MicroSoft和NVIDIA显然处于领先地位。尽管谷歌和亚马逊也在努力建立自己的生态系统,但NVIDIA提供了更完整的硬件、App和系统解决方案,使其成为最具吸引力的选择。
要赢得先机,就必须进入其硬件、App和系统级业务生态。然而,这也意味着进一步被锁定,未来更难撼动其地位。
从谷歌和亚马逊等企业的角度来看,如果不选择接入NVIDIA的生态系统,可能会失去先机;而如果选择接入,则可能意味着失去未来。
NVIDIA布局了两种类型网络,一种是传统InfiniBand和Ethernet网络,另一种是NVLink总线域网络。
在传统网络中,Ethernet面向AIGC Cloud多AI训练和推理等云服务,而InfiniBand面向AI Factory,满足大模型训练和推理的应用需求。在交换芯片布局方面,有基于开放Ethernet增强的Spectrum-X交换芯片和基于InfiniBand的封闭高性能的Quantum交换芯片。
当前Ultra Ethernet Consortium(UEC)正在尝试定义基于Ethernet的开放、互操作、高性能的全栈架构,以满足不断增长的AI和HPC网络需求 [14],旨在与NVIDIA的网络技术相抗衡。UEC的目标是构建一个类似于InfiniBand的开放协议生态,从技术层面可以理解为将Ethernet进行增强以达到InfiniBand网络的性能,或者说是实现一种InfiniBand化的Ethernet。
从某种意义上说UEC在重走InfiniBand道路。总线域网络NVLink的主要特征是要在超节点范围内实现内存语义级通信和总线域网络内部的内存共享,它本质上是一个Load-Store网络,是传统总线网络规模扩大以后的自然演进。从NVLink接口的演进历程可以看出,其1.0~3.0版本明显是对标PCIe的,而4.0版本实际上对标InfiniBand和Ethernet的应用场景,但其主要目标还是实现GPU的Scale Up扩展。
从原始需求的角度来看,NVLink网络在演进过程中需要引入传统网络的一些基本能力,例如编址寻址、路由、均衡、调度、拥塞控制、管理控制和测量等。
同时,NVLink还需要保留总线网络基本特征,如低时延、高可靠性、内存统一编址共享以及内存语义通信。这些特征是当前InfiniBand或Ethernet网络所不具备的或者说欠缺的。
与InfiniBand和Ethernet传统网络相比,NVLink总线域网络的功能定位和设计理念存在着本质上的区别。
大家很难说NVLink网络和传统InfiniBand网络或者增强Ethernet网络最终会殊途同归。
NVIDIA在AI集群竞争态势中展现出了全面布局,涵盖了计算(芯片、超级芯片)和网络(超节点、集群)领域。
在计算芯片方面,NVIDIA拥有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局; 在超节点网络层面,Nvidia提供了NVLink和InfiniBand两种定制化网络选项; 在集群网络方面,NVIDIA有基于Ethernet的交换芯片和DPU芯片布局。
AMD紧随其后,更专注于CPU和GPU计算芯片,并采用基于先进封装的Chiplet芯粒技术。
与NVIDIA不同的是,AMD当前没有超级芯片的概念,而是采用了先进封装将CPU和GPU Die合封在一起。
AMD使用私有的Infinity Fabric Link内存一致接口进行GPU、CPU、GPU和CPU间的互联,而GPU和CPU之间的互联仍然保留传统的PCIe连接方式。
此外,AMD计划推出XSwitch交换芯片,下一代MI450加速器将利用新的互连结构,其目的显然是与NVIDIA的NVSwitch竞争 [15]。
BRCM则专注于网络领域,在超节点网络有对标InfiniBand的Jericho3-AI+Ramon的DDC方案; 在集群网络领域有基于Ethernet的Tomahawk系列和Trident系列交换芯片。
近期BRCM推出其新的App可编程交换Trident 5-X12集成了NetGNT神经网络引擎实时识别网络流量信息,并调用拥塞控制技术来避免网络性能下降,提高网络效率和性能 [16]。
Cerebras/Telsa Dojo则“剑走偏锋”,走依赖“晶圆级先进封装”的深度定制硬件路线。
2 工程工艺洞察和推演假设
❶、半导体工艺演进洞察
根据IRDS的乐观预测,未来5年,逻辑器件的制造工艺仍将快速演进,2025年会初步实现Logic器件的3D集成。
TSMC和Samsung将在2025年左右开始量产基于GAA(MBCFET)的2nm和3nm制程的产品 [17]。
按照TSMC给出的工艺演进路标,2023~2025年基本以3nm工艺为主,2nm工艺在2025年以后才会发布。
3nm技术已经进入量产阶段,N3工艺和N3E版本已经于2023年推出。2024年下半年开始生产N3P版本,该版本将提供比N3E更高的速度、更低的功耗和更高的芯片密度。
此外,N3X版本将专注于高性能计算应用,提供更高的时钟频率和性能,预计将于2025年开始量产 [18]。
工艺演进的收益对于逻辑器件的收益小于50%,因此,未来单芯片算力提升将更依赖于先进封装技术。
❷、先进封装演进洞察
TSMC的CoWoS先进封装工艺封装基板的尺寸在2023年为4倍Reticle面积,2025年将达到6倍Reticle面积 [19]。
当前NVIDIA H100 GPU的封装基板尺寸小于2倍Reticle面积,AMD的MI300系列GPU的封装基板尺寸大约为3.5倍Reticle面积,逼近当前TSMC CoWoS-L工艺的极限。
❸、HBM内存演进洞察
HBM内存的容量预计将在2024年达到24GB,并在2025年进一步增长至36GB [20]。
HBM4预计将带来两个重要的变化:首先,HBM接口位宽将从1024扩展到2048;其次,业界正在尝试将HBM内存Die直接堆叠在逻辑Die的上方 [21][22]。
这两个变化意味着HBM内存的带宽和单个封装内能容纳的容量都将持续增长。
据报道,SK海力士已经开始招聘CPU和GPU等逻辑半导体的设计人员。
该企业显然正在考虑将HBM4直接堆叠在处理器上,这不仅会改变逻辑和存储器设备的传统互连方式,还会改变它们的制造方式。
事实上,如果SK海力士成功实现这一目标,这可能会彻底改变芯片代工行业 [21][22]。
❹、推演假设
本文基于两个前提假设来推演NVIDIA未来AI芯片的架构演进。
首先,每一代AI芯片的存储、计算和互联比例保持大致一致,且比上一代提升1.5到2倍以上;其次,工程工艺演进是渐进且可预测的,不存在跳变,至少在2025年之前不会发生跳变。
到2025年,工艺将保持在3nm水平,但工艺演进给逻辑器件带来的收益预计不会超过50%。 同时,先进封装技术预计将在2025年达到6倍Reticle面积的水平。
此外,HBM内存容量也将继续增长,预计在2024年将达到24GB,而在2025年将达到36GB。
3 NVIDIA AI芯片架构解读
互联技术在很大程度上决定了芯片和系统的物理架构。
NVIDIA利用NVLink-C2C这种低时延、高密度、低成本的互联技术来构建SuperChip超级芯片,旨在兼顾性能和成本打造差异化竞争力。
与传统的SerDes互联相比,NVLink C2C采用了高密度单端架构和NRZ调制,使其在实现相同互联带宽时能够在时延、功耗、面积等方面达到最佳平衡点;
而与Chiplet Die-to-Die互联相比,NVLink C2C具备更强的驱动能力,并支撑独立封装芯片间的互联,因此可以使用标准封装,满足某些芯片的低成本需求。
为了确保CPU和GPU之间的内存一致性操作(Cache-Coherency),对于NVLink C2C接口有极低时延的要求。
H100 GPU的左侧需要同时支撑NVLink C2C和PCIe接口,前者用于实现与NVIDIA自研Grace CPU组成Grace-Hopper SuperChip,后者用于实现与PCIe交换芯片、第三方CPU、DPU、SmartNIC对接。
NVLink C2C的互联带宽为900GB/s,PCIe互联带宽为128GB/s。
而当Hopper GPU与Grace CPU组成SuperChip时,需要支撑封装级的互联。
值得注意的是,Grace CPU之间也可以通过NVLink C2C互联组成Grace CPU SuperChip。
考虑到成本因素,NVIDIA没有选择采用双Die合封的方式组成Grace CPU,而是通过封装间的C2C互联组成SuperChip超级芯片。 从时延角度来看,NVLink C2C采用40Gbps NRZ调制,可以实现无误码运行(BER<1e-12),免除FEC,接口时延可以做到小于5ns。
相比之下,112G DSP架构的SerDes本身时延可以高达20ns,因为采用了PAM4调制,因此还需要引入FEC,这会额外增加百纳秒量级的时延。
此外,NVLink C2C采用了独立的时钟线来传递时钟信号,因此数据线上的信号不需要维持通信信号直流均衡的编码或扰码,可以进一步将时延降低到极致。
因此,引入NVLink C2C的主要动机是满足芯片间低时延互联需求。
从互联密度来看,当前112G SerDes的边密度可以达到12.8Tbps每边长,远远大于当前H100的(900+128)GB/s * 8/2 = 4.112Tbps的边密度需求。
NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm2 vs. 552Gbps/mm2)。
而当前NVLink C2C的边密度还略低于SerDes(281Gbps/mm vs. 304Gbps/mm)。更高的边密度显然不是NVLink C2C需要解决的主要矛盾。
从驱动能力来看,112G SerDes的驱动能力远大于NVLink C2C。
这在一定程度上会制约NVLink C2C的应用范围,未来类似于NVLink C2C的单端传输线技术有可能进一步演进,拓展传输距离,尤其是在224G及以上SerDes时代,芯片间互联更加依赖于电缆解决方案。
这对与计算系统是不友好的,会带来诸如芯片布局、散热困难等一系列工程挑战,同时也需要解决电缆方案成本过高的问题。 从功耗来看,112G SerDes的功耗效率为5.5pJ/bit,而NVLink C2C的功耗效率为1.3pJ/bit。在3.6Tbps互联带宽下,SerDes和NVLink C2C的功耗分别为19.8W和4.68W。虽然单独考虑芯片间互联时,功耗降低很多,但是H100 GPU芯片整体功耗大约为700W,因此互联功耗在整个芯片功耗中所占比例较小。
从成本角度来看,NVLink C2C的面积和功耗优于SerDes互联。
因此,在提供相同互联带宽的情况下,它可以节省更多的芯片面积用于计算和缓存。
然而,考虑到计算芯片并不是IO密集型芯片,因此这种成本节约的比例并不显著。
但是,如果将双Chiplet芯粒拼装成更大规模的芯片时,NVLink C2C可以在某些场景下可以避免先进封装的使用。
这对降低芯片成本有明显的帮助,例如Grace CPU SuperChip超级芯片选择标准封装加上NVLink C2C互联的方式进行扩展可以降低成本。
在当前工艺水平下,先进封装的成本远高于逻辑Die本身。
C2C互联技术的另一个潜在的应用场景是大容量交换芯片,当其容量突破200T时,传统架构的SerDes面积和功耗占比过高,给芯片的设计和制造带来困难。
在这种情况下,可以利用出封装的C2C互联技术来实现IO的扇出,同时尽量避免使用先进的封装技术,以降低成本。
然而,目前的NVLink C2C技术并不适合这一应用场景,因为它无法与标准SerDes实现比特透明的转换。
因此,需要引入背靠背的协议转换,这会增加时延和面积功耗。
Grace CPU具有上下翻转对称性,因此单个芯片设计可以支撑同构Die组成SuperChip超级芯片。
Hopper GPU不具备上下和左右翻转对称性,未来双Die B100 GPU芯片可能由两颗异构Die组成。
NVLink和NVLink C2C技术提供了更灵活设计,实现了CPU和GPU灵活配置,可以构建满足不同应用需求的系统架构。
NVLink C2C可以提供灵活的CPU、GPU算力配比,可组成 1/0,0.5/1,0.5/2,1/4,1/8等多种组合的硬件系统。
NVLink C2C支撑Grace CPU和Hopper GPU芯片间内存一致性操作(Cache-Coherency),让Grace CPU成为Hopper GPU的内存控制器和IO扩展器,实现了4倍IO带宽和5倍内存容量的扩展。
这种架构打破了HBM的瓶颈,实现了内存超发。对训练影响是可以缓存更大模型,利用ZeRO等技术外存缓存模型,带宽提升能减少Fetch Weight的IO开销。
对推理影响是可以缓存更大模型,按需加载模型切片推理,有可能在单CPU-GPU超级芯片内完成大模型推理 [23]。
有媒体测算NVIDIA的H100利润率达到90%。同时也给出了估算的H100的成本构成,NVIDIA向台积电下订单,用N4工艺制造GPU芯片,平均每颗成本155美金。NVIDIA从SK海力士(未来可能有SAMSUNG、美光)采购六颗 HBM3芯片,成本大概2000美金。
台积电生产出来的GPU和NVIDIA采购的HBM3芯片,一起送到台积电CoWoS封装产线,以性能折损最小的方式加工成H100,成本大约723美金 [24]。先进封装成本高,是逻辑芯片裸Die成本的3到4倍以上, GPU内存的成本占比超过60%。
按照DDR: 5美金/GB,HBM: 15美金/GB以及参考文献 [25][26] 中给出的GPU计算Die和先进封装的成本测算,H100 GPU HBM成本占比为62.5%;GH200中HBM和LPDDR的成本占比为78.2%。
虽然不同来源的信息对各个部件的绝对成本估算略有不同,但可以得出明确的结论:
内存在AI计算系统中的成本占比可高达60%到70%以上;先进封装的成本是计算Die成本的3到4倍以上。在接近Reticle面积极限的大芯片良率达到80%的情况下,先进封装无法有效地降低成本。因此,应该遵循非必要不使用的原则。
4 NVIDIA AI芯片架构解读
AMD的GPU相对于NVIDIA更加依赖先进封装技术。MI250系列GPU采用了基于EFB硅桥的晶圆级封装技术,而MI300系列GPU则应用了AID晶圆级有源封装基板技术。
相比之下,NVIDIA并没有用尽先进封装的能力,一方面在当前代际的GPU中保持了相对较低的成本,另一方面也为下一代GPU保留了一部分工程工艺的价值发挥空间。
Intel Ponte Vecchio GPU将Chiplet和先进封装技术推向了极致,它涉及5个工艺节点(包括TSMC和Intel两家厂商的不同工艺),47个有源的Tile,并同时采用了EMIB 2.5D和Foveros 3D封装技术。
可以说,它更像是一个先进封装技术的试验场。
Intel的主力AI芯片是Gaudi系列AI加速芯片 [27][28][29]。
值得注意的是,Gaudi系列AI芯片是由TSMC代工的,Gaudi 2采用的是TSMC 7nm工艺,Gaudi 3采用的是TSMC 5nm工艺。
5 NVIDIA未来AI芯片架构推演
❶、NVLink和NVLink C2C演进推演互联技术在很大程度上塑造了芯片和系统的物理架构。从互联技术的发展历程出发,以芯片布局为线索,并考虑工程工艺的物理限制,可以对NVIDIA未来AI芯片架构进行预测。这种推演也有助于发掘对互联技术的新需求。互联技术的演进是一个渐进的过程,其基本技术要素如带宽、调制和编码等都遵循着其内在的发展规律。
这些物理规律相对稳定,通过将这些技术进行组合并结合当前工程工艺的发展趋势以及需求,就可以大致描绘和预测出互联技术的发展方向。在这里不深入探讨晦涩难懂的互联技术本身的发展,而是从宏观技术逻辑和外在可观察的指标两个角度出发,探讨NVLink和NVLink C2C的历史演进,并对其未来发展进行预测。
从NVLink的演进看,当前其演进了四个代际,NVLink C2C当前只有一个代际,通过与当下不同协议的速率演进对比及NVLink宣传材料,可以清晰的看到每个代际的NVLink技术的竞争对手和其要解决的痛点问题。当前接口有两大开放的互联生态,PCIe互联生态和Ethernet互联生态,CXL协议依托于PCIe互联生态,而InfiniBand则依托与Ethernet互联生态。
NVLink的主要目标是解决GPU之间的互联问题,而早期的GPU一定需要保留与CPU互联的PCIe接口,用于GPU互联是也天然的继承了这一技术,因此NVLink早期的竞争对手是PCIe。从PCIe、Ethernet和NVLink的发展轨迹来看,NVLink的SerDes速率介于同时期PCIe和Ethernet SerDes速率之间。这意味着NVLink利用了Ethernet生态成熟的互联技术来对抗PCIe,实现接口速率超越PCIe。
通过复用Ethernet生态的成熟互联技术,NVLink在成本方面也具有优势。值得注意的是,NVLink并未完全遵循Ethernet的互联技术规范。例如,在50G NVLink 3.0采用了NRZ调制,而不是Ethernet所采用的PAM4调制 [30]。
这意味着NVLink 3.0利用了100Gbps PAM4 SerDes代际的技术,并通过采用更低阶NRZ调制来实现链路的无误码运行,免去FEC实现低时延。同样以低时延著称的InfiniBand在50G这一代际则完全遵从了Ethernet的PAM4调制,这在一定程度上使其在50G这一代际丧失了低时延的技术优势,市场不得不选择长期停留在25G代际的InfiniBand网络上。
当然,InfiniBand网络也有其无奈之处,因为它需要复用Ethernet光模块互联生态,所以它必须完全遵循Ethernet的互联电气规范,而与之对应的NVLink 3.0则只需要解决盒子内或机框内互联即可。
同样的事情也会在100G代际的NVLink 4.0上发生,NVLink 4.0完全摆脱了盒子和框子的限制,实现了跨盒子、跨框的互联。此时为了复用Ethernet的光模块互联生态,NVLink 4.0的频点和调制格式也需要遵从Ethernet互联的电气规范。以前InfiniBand遇到的问题,NVLink也同样需要面对。
在100G时代,可以观察到Ethernet、InfiniBand和NVLink的SerDes速率在时间节奏上齐步走的情况。实际上,这三种互联接口都采用了完全相同的SerDes互联技术。同样的情况在200G这一代际也会发生。
与InfiniBand和Ethernet不同的是,NVLink是一个完全私有的互联生态,不存在跨速率代际兼容、同代际支撑多种速率的接口和多厂商互通的问题。因此,在技术选择上,NVLink可以完全按照具体应用场景下的需求来选择设计甜点,在推出节奏上可以根据竞争情况自由把控,也更容易实现差异化竞争力和高品牌溢价。
NVLink的发展可以分为两个阶段。
NVLink 1.0~3.0主要在盒子内、机框内实现GPU高速互联,对标PCIe。它利用了Ethernet SerDes演进更快的优势,采用了更高速的SerDes。同时在NVLink2.0时代开始引入NVSwitch技术,在盒子内、机框内组成总线域网络,在带宽指标上对PCIE形成了碾压式的竞争优势。
NVLink 4.0以后NVLink走出盒子和机框,NVSwitch走出计算盒子和机框,独立成为网络设备,此时对标的是InfiniBand和Ethernet网络。虽然NVLink 4.0没有公开的技术细节,但是从NVLink网络的Load-Store网络定位和满足超节点内部内存共享的需求上看,一个合理的推测是,NVLink 4.0很可能采用了轻量FEC加链路级重传的技术支撑低时延和高可靠互联。
在时延和可靠性竞争力指标上对InfiniBand和Ethernet形成碾压式的竞争力,这更有利于实现内存语义网络,支撑超节点内内存共享。提供传统网络所不能提供的关键特性,才是NVLink作为总线域网络独立存在的理由。
基于NVLink C2C的产品目前只有GH200这一代,但是从NVIDIA在该领域公开发表的论文中可以大致看出其技术发展的脉络。从技术演进上看,它是封装内Die间互联的在均衡上的增强。
从NVIDIA SuperChip超级芯片路标来看,它将在未来的AI芯片中继续发挥重要作用。对于这类接口,仍需保持连接两个独立封装芯片的能力和极低的时延和功耗。
当前的NVLink C2C采用9*40Gbps NRZ调制方式。未来NVLink-C2C可能会向更高速率和双向传输技术方向演进。而50G NRZ是C2C互联场景下在功耗和时延方面的设计甜点。继续维持NRZ调制,选择合适工作频率,走向双向传输将是实现速率翻倍的重要技术手段。
虽然NVLink C2C针对芯片间互联做了优化设计,但由于它与标准SerDes之间不存在速率对应关系,无法实现与标准SerDes之间比特透明的信号转换,因此其应用场景受限。
在与标准SerDes对接时需要多引入一层协议转化会增加时延、面积和功耗开销。未来可能存在一种可能性,即采用类似NVLink C2C这种高密单端传输技术,同时与标准SerDes实现多对一的速率匹配。
这种技术一旦实现将极大地扩展C2C高密单端互联技术的应用空间,也有可能开启SerDes面向更高速率演进的新赛道。
从NVLink和NVSwitch的演进来看,每一代速率会是上一代的1.5到2倍。下一代NVLink 5.0大概率会采用200G每通道,每个GPU能够出的NVLink接口数量从18个增加到32个,甚至更高。
而NVSwitch 4.0在端口速率达到200G以外,交换芯片的端口数量可能在NVSwitch 3.0交换芯片64端口的基础上翻2倍甚至4倍,总交换容量从12.8T到25.6T甚至51.2T [30]。
❷、B100 GPU架构推演(注:与实际有出入)
以H100 GPU芯片布局为基础,通过先进的封装技术将两颗类似H100大小的裸Die进行合封,可以推演B100 GPU架构。B100 GPU有两种“双Die”推演架构:IO边缝合和HBM边缝合[31][32]。“HBM边缝合”利用H100的HBM边进行双Die连接,这种方案的优点在于,它可以使得IO可用边长翻倍,从而有利于扩展IO带宽。
然而,它的缺点在于HBM可用边长并没有改变,因此无法进一步扩展HBM容量。“IO边缝合”利用H100的IO边进行双Die连接,这种方案的优势在于HBM可用边长能够翻倍,从而有利于扩展内存。然而,它的缺点在于IO可用边长并未改变,因此需要进一步提升IO密度。考虑到每代芯片与上一代相比,在内存、算力、互联三个层面需要实现两倍以上的性能提升,采用“IO 边缝合”方案的可能性更大。采用“IO 边缝合”的方案需要提升IO的边密度。
H100不具备旋转对对称性,而双Die的B100仍需支撑GH200 SuperChip超级芯片,因此B100可能由两颗异构Die组成。
按照不同的长宽比采用“IO边缝合的方式”B100的面积达到3.3到3.9倍的Reticle面积,小于当前TSMC CoWoS先进封装能够提供的4倍Reticle面积的能力极限。计算Die之间互联可以复用 NVLink C2C 互联技术,既利用NVLink C2C出封装的连接能力覆盖Die间互联的场景。
|