英伟达最强AI芯片曝重大设计缺陷,中国特供版意外曝光
英伟达最强AI芯片曝重大设计缺陷,中国特供版意外曝光
【导读】因设计缺陷,英伟达最强 AI 芯片 Blackwell,真的要延期发货了。金主爸爸们哀声一片,所有预定计划预计要拖延至少三个月。
英伟达 GPU,一直是 OpenAI 等大模型公司研发 AI 的命脉。
而现在,由于 Blackwell GPU 的设计缺陷,英伟达发货时间不得不推迟 3 个月,甚至更长的时间。
Information 独家报道称,最近几周,台积电工程师在为 Blackwell 芯片量产做准备时,才发现了缺陷。
就在上周,老黄曾在 SIGGRAPH 上表示,英伟达已经向世界各地客户递交 Blackwell 工程样本。
他满脸轻松的样子,根本没有暗示任何意想不到的延误。
那么,芯片设计究竟哪里出现了缺陷?
GB200 包含了 2 个 Blackwell GPU 和 1 个 Grace CPU。问题所在,就是连接 2 个 Blackwell GPU 的关键电路上。
正是这一问题,才导致台积电生产 GB200 良率下降。
最新芯片推迟发货,意味着对于 Meta、谷歌、微软等科技大厂来说,AI 训练进程将会受到影响。
而且,他们数据中心建设也将不可避免地延期。
据称,Blackwell 芯片大量出货,预计要到明年第一季度。
在 SemiAnalysis 最新报告中,同样详细阐述了英伟达面临的技术挑战,推迟发货后的时间表,以及新系统 MGX GB200A Ultra NVL36。
Blackwell 推迟三月,哀声一片
还记得 GTC 2024 大会上,老黄手捧最强 Blackwell 架构 GPU,向世界宣告了最强的性能野兽。
5 月,他曾公开表示,「计划在今年晚些时候,将大量出货 Blackwell 架构的芯片」。
甚至,他还在财报会议上信心满满地表示,「今年我们会看到大量的 Blackwell 收入」。
英伟达股东们更是对 Blackwell GPU 寄予厚望。
来自 Keybanc Capital Markets 的分析师估算,Blackwell 芯片将为英伟达数据中心带来,将从 2024 年的 475 亿美元,提升到 2025 年超 2000 亿美元的收入。
也就是说,Blackwell 系列 GPU,对于英伟达未来的销量和收入起着决定性作用。
却没想到,设计缺陷直接影响了英伟达在今年下半年,以及明年上半年的生产目标。
参与 Blackwell 芯片设计内部人士透露,英伟达正与台积电进行测试芯片生产运行,来尽快解决难题。
不过目前,英伟达的弥补措施是,继续延长 Hopper 系列芯片发货量,尽可能按计划在今年下半年加速生产 Blackwell GPU。
豪掷数百亿美金,AI 训练延期
不仅如此,这个链式效应,将对大模型开发商、数据中心云服务提供商,造成了致命的打击。
为了训 AI,Meta、微软、谷歌等金主爸爸们,不惜重金斥资数百亿美元,订购了大量 Blackwell 芯片。
谷歌已经订购了超 40 万个 GB200,外加服务器硬件,谷歌订单成本远超 100 亿美元。
今年,这家巨头已经在芯片和其他设备财产上,支出预计约为 500 亿美元,比去年增长了超过 50%。
另外,Meta 也下了至少 100 亿美元的订单,而微软订单规模近几周增加了 20%。
不过,这两家公司的具体订单规模,尚未得知。
知情人士透露,微软计划到 2025 年第一季度,要为 OpenAI 准备 5.5 万 -6.5 万个 GB200 芯片。
而且,微软管理层原计划在 25 年 1 月,向 OpenAI 提供 Blackwell 驱动的服务器。
现在看来,原计划需要推迟到 3 月,或者来年春天。
按原本预定的时间,他们将在 2025 年第一季度开始运行新超算集群。
包括 OpenAI 在内 AI 公司,都在等着使用新芯片开发开发下一代 LLM。
因为大模型的训练还需要多倍的算力,从而能够更好回答复杂问题、自动化多步任务,生成更逼真的视频。
可以说,下一代超强 AI,就指望着英伟达最新的 AI 芯片了。
史上罕见的延迟
不过,这次大规模芯片订单延迟,不仅在所有人意料之外,更是罕见的。
台积电最初计划在第三季度,开始量产 Blackwell 芯片,并从第四季度开始大规模向英伟达客户发货。
内部人士透露,Blackwell 芯片现在预计将在第四季度进入量产阶段,如果没有进一步的问题,服务器将在随后的季度内大规模出货。
其实,早在 2020 年,英伟达旗舰 GPU 早期版本,也因为一些问题不得不延迟。
但当时英伟达所面临的风险较低,客户们并不急于订单到货,而且从数据中心中实现盈利也相对较少。
而这次,在量产前发现重大设计缺陷,确实非常罕见。
芯片设计师通常会与台积电晶圆厂合作,进行多次生产测试和模拟,以确保产品的可行性和顺利的制造过程,然后才会接受客户的大量订单。
对于台积电来说,停止生产线,并重新设计一个即将量产的产品,也并不多见。
他们专为 GB200 量产做了充分准备,包括分配专门的机器产能。
而现在,在问题解决之前,这些机器人不得不暂时闲置。
设计缺陷还将影响英伟达 NVLink 服务器机架的生产和交付,因为负责服务器的公司必须等待新的芯片样品,才能最终确定服务器机架设计。
被迫推出重制版
技术挑战也让英伟达不得不紧急开发一套全新的系统及组件架构,比如 MGX GB200A Ultra NVL36。
而这种全新的设计,也将对数十家上下游供应商产生了重大影响。
作为 Blackwell 系列中技术最先进的芯片,英伟达在系统层面上对 GB200 做出了大胆的技术选择。
这个 72 GPU 机架的功率密度达到了前所未有的每机架 125kW。相比之下,数据中心大多数架只有 12kW 到 20kW。
如此复杂的系统,也导致了许多与电力传输问题、过热、水冷供应链增长、快速断开的水冷系统泄漏以及各种电路板复杂性问题相关的问题,并让一些供应商和设计师措手不及。
不过,这并不是导致英伟达减少产量或重大路线图调整的原因。
真正影响出货的核心问题是——英伟达 Blackwell 架构的设计本身。
Blackwell 封装是第一个使用台积电的 CoWoS-L 技术进行大规模量产设计的封装。
CoWoS-L 需要使用带有局部硅互连(LSI)和嵌入桥接芯片的 RDL 中介层,来桥接封装内各种计算和存储之间的通信。
相比起目前采用的 CoWoS-S 技术,CoWoS-L 要复杂得多,但它是未来。
英伟达和台积电制定了一个非常激进的增长计划,每季度超过一百万颗芯片的目标。
但各种各样的问题,也因此出现了。
其中一个问题是将多个细间距凸点桥嵌入有机中介层和硅中介层中,可能会导致硅芯片、桥、有机中介层和基板之间的热膨胀系数(CTE)不匹配,导致翘曲。
桥接芯片的布局需要非常高的精度,特别是涉及到 2 个主要计算芯片之间的桥接时,因为这些桥接对于支持 10 TB/s 的芯片间互连至关重要。
据传,一个主要的设计问题与桥接芯片有关。同时,顶部几层全局布线金属层和芯片的凸点也需要重新设计。这是导致多个月延迟的主要原因之一。
另一个问题是,台积电没有足够的 CoWoS-L 产能。
过去几年中,台积电建立了大量的 CoWoS-S 产能,其中英伟达占了大部分份额。
现在,随着英伟达迅速将需求转向 CoWoS-L,台积电正在为 CoWoS-L 建造一个新的工厂 AP6,并在 AP3 改造现有的 CoWoS-S 产能。
为此,台积电需要改造旧的 CoWoS-S 产能,否则这些产能将被闲置,而 CoWoS-L 的增长速度将会更慢。而这个改造过程将使得增长变得非常不均匀。
结合这两个问题,台积电显然是无法按照英伟达的需求供应足够的 Blackwell 芯片。
因此,英伟达几乎将所有产能都集中在 GB200 NVL 36x2 和 NVL72 机架规模系统上。并取消了搭载 B100 和 B200 的 HGX 计算模组。
作为替代,英伟达将推出一款基于 B102 芯片并配有 4 层 HBM 显存的 Blackwell GPU —— B200A,用以满足中低端 AI 系统的需求。
有趣的是,这款 B102 芯片也将用于中国「特供版」的 B20 上。
由于 B102 是一个单片计算芯片,因此英伟达不仅可以将其封装在 CoWoS-S 上,而且还能让除台积电以外的其他供应商进行 2.5D 封装,如 Amkor、ASE SPIL 和三星。
B200A 将以 700W 和 1000W 的 HGX 形态出现,配备高达 144GB 的 HBM3E 显存和高达 4 TB/s 的带宽。值得注意的是,这比 H200 的显存带宽要少。
接下来是中级增强版—— Blackwell Ultra。
标准的 CoWoS-L Blackwell Ultra,即 B210 或 B200 Ultra,不仅在显存刷新方面达到高达 288GB 的 12 层 HBM3E,还在 FLOPS 性能方面提升了高达 50%。
B200A Ultra 则会有更高的 FLOPS,但在显存上不会进行升级。
除了有和原版 B200A 一样的 HGX 配置外,B200A Ultra 还引入了一个全新的 MGX NVL 36 形态。
在训练少于 5000 个 GPU 的工作负载时,HGX Blackwell 的性能 /TCO 非常出色。
尽管如此,由于基础设施更加灵活,MGX NVL36 仍是许多下一代模型的理想选择。
由于 Llama 3 405B 已经接近 H200 HGX 服务器的极限,下一代 MoE LLAMA 4 肯定无法适应单个 Blackwell HGX 服务器节点。
再结合上对于 MGX B200A Ultra NVL36 价格的估计,SemiAnalysis 认为 HGX B200A 卖得不会太好。
MGX GB200A Ultra NVL36 架构
MGX GB200A NVL36 SKU 是一款风冷 40kW/ 机架服务器,配备 36 个通过 NVLink 完全互连的 GPU。
其中,每个机架将配备 9 个计算托盘和 9 个 NVSwitch 托盘。每个计算托盘为 2U,包含 1 个 Grace CPU 和 4 个 700W 的 B200A Blackwell GPU。每个 1U NVSwitch 托盘则只有 1 个交换机 ASIC,每个交换机 ASIC 的带宽为 28.8 Tbit/s。
相比之下,GB200 NVL72 / 36x2 包含 2 个 Grace CPU 和 4 个 1200W 的 Blackwell GPU。
由于每个机架仅为 40kW 并可采用空气冷却,因此现有的数据中心运营商可以在不重新调整基础设施的情况下轻松部署 MGX NVL36。
与 GB200 NVL72 / 36x2 不同的是,4 个 GPU 对 1 个 CPU 的比例,意味着每个 GPU 只能获得一半的 C2C 带宽。
因此,MGX NVL36 无法使用 C2C 互连,而是需要采用集成的 ConnectX-8 PCIe 交换机来完成 GPU 与 CPU 的通信。
此外,与所有其他现有的 AI 服务器(HGX H100/B100/B200, GB200 NVL72 / 36x2, MI300)不同,每个后端 NIC 现在将负责 2 个 GPU。
这意味着尽管 ConnectX-8 NIC 设计可以提供 800G 的后端网络,但每个 GPU 只能访问 400G 的后端 InfiniBand/RoCE 带宽。(同样也是在 GB200 NVL72 / 36x2 的一半)
GB200 NVL72/NVL36x2 计算托盘的核心是 Bianca 板,其包含 2 个 Blackwell B200 GPU 和 1 个 Grace CPU。
由于每个计算托盘配有 2 个 Bianca 板,因此总共会搭载 2 个 Grace CPU 和 4 个 1200W 的 Blackwell GPU。
相比之下,MGX GB200A NVL36 的 CPU 和 GPU 将会位于不同的 PCB 上,类似于 HGX 服务器的设计。
但与 HGX 服务器不同的是,每个计算托盘的 4 个 GPU 将被细分为 2 个 2-GPU 板。每个 2-GPU 板则搭载了类似 Bianca 板的 Mirror Mezz 连接器。
然后,这些 Mirror Mezz 连接器将用于连接到 ConnectX-8 中间板,并将 ConnectX-8 ASIC 与其集成的 PCIe 交换机连接到 GPU、本地 NVMe 存储和 Grace CPU。
由于 ConnectX-8 ASIC 距离 GPU 非常近,因此 GPU 和 ConnectX-8 NIC 之间并不需要重新定时器。而 HGX H100/B100/B200 需要。
此外,由于 Grace CPU 和 Blackwell GPU 之间没有 C2C 互连,因此 Grace CPU 会位于一个完全独立的 PCB 上,即 CPU 主板。该主板将包含 BMC 连接器、CMOS 电池、MCIO 连接器等。
每个 GPU 的 NVLink 带宽将为每个方向 900GB/s,这与 GB200 NVL72 / 36x2 相同。按每 FLOP 计算,这显著增加了 GPU 到 GPU 的带宽,使 MGX NVL36 在某些工作负载中更具优势。
由于只有一层交换机连接 36 个 GPU,因此仅需 9 个 NVSwitch ASIC 即可提供无阻塞网络。
此外,由于每个 1U 交换托盘只有 1 个 28.8Tbit/s 的 ASIC,因此非常容易进行空气冷却。比如 Quantum-2 QM9700 这样的 25.6Tbit/s 1U 交换机就可以。
在后端网络上,由于每个计算托盘只有 2 个 800G 端口,因此它将使用 2 轨优化的行尾网络。
对于每 8 个 GB200A NVL36 机架,将有 2 个 Quantum-X800 QM3400 交换机。
在每个 GPU 700W 的情况下,GB200A NVL36 每个机架的功耗可能在 40kW 左右,即 2U 空间散热 4kW。
如此一来,将需要专门设计的散热片和高速风扇来进行空气冷却。
部署 MGX GB200A NVL 36 的挑战
由于 GB200A NVL36 完全依靠风冷,而且在 2U 机箱前端除了 PCIe 形态的 NIC 外,还要有一个专用的 PCIe 交换机,这将显著增加热管理的挑战。
因此,在 GB200A NVL36 上进行定制后端 NIC 基本上是不可能的。
由于许多机器学习依赖项是为 x86 CPU 编译和优化的,且 Grace CPU 和 Blackwell GPU 位于单独的 PCB 上,因此很可能还会有一个 x86 + B200A NVL36 版本。
不过,x86 CPU 虽然可以提供更高的峰值性能,但功耗也会相应高出 100W,从而极大增加了 OEM 的热管理挑战。
此外,考虑到 Grace CPU 的销量问题,即便英伟达推出了 x86 B200A NVL36 解决方案,他们也会 push 客户去选择 GB200A NVL36。
当然,GB200A NVL36 也有自己的卖点——每机架 40kW 的风冷系统。
毕竟,很多客户并不能负担得起每机架约 125 kW 的 GB200 NVL72(或总功耗超过 130kW 的 36x2)所需的液冷和电力基础设施。
H100 的 TDP 为 700W,目前使用的是 4U 高的 3DVC,而 1000W 的 H200 使用的是 6U 高的 3DVC。
相比之下,MGX B200A NVL36 的 TDP 也是 700W 但机箱只有 2U,空间相当受限。因此将需要一个水平扩展的阳台状散热片来增加散热片的表面积。
除了需要更大的散热片外,风扇还需要提供比 GB200 NVL72 / 36x2 2U 计算托盘或 HGX 8 GPU 设计更强的气流。
根据估计,在 40kW 机架中,15% 到 17% 的总系统功率将用于内部机箱风扇。相比之下,HGX H100 的风扇也只消耗总系统功率的 6% 到 8%。
由于需要大量的风扇功率来使 MGX GB200A NVL36 正常工作,这是一种效率极低的设计。
为什么取消 GB200A NVL64
在英伟达最终确定 MGX GB200A NVL36 之前,他们也在尝试设计一个空气冷却的 NVL64 机架——功耗 60kW,搭载 64 个通过 NVLink 完全互连的 GPU。
然而,在经过广泛的工程分析之后,SemiAnalysis 认为这个产品并不可行,且不会上市。
在提议的 NVL64 SKU 中,有 16 个计算托盘和 4 个 NVSwitch 托盘。每个计算托盘是 2U,包含 1 个 Grace CPU 和 4 个 700W 的 Blackwell GPU,就像 MGX GB200A NVL36 一样。
主要的修改在于 NVSwitch 托盘——英伟达没有将 GB200 每个托盘的 2 个 NVSwitch 减少到 1 个,而是尝试将其增加到 4 个 ASIC 交换机。
显然,仅靠空气冷却功耗如此之高的庞然大物几乎是不可能的。(英伟达提出的是 60kW,SemiAnalysis 估算是 70kW)
这通常需要使用后门热交换器,但这破坏了空气冷却机架架构的意义,因为仍然依赖于液冷供应链。此外,这种解决方案仍然需要大多数数据中心进行设施级别的改造,以便将冷却水输送到后门热交换器。
另一个非常棘手的热问题是 NVSwitch 托盘将在 1 个 1U 机箱中包含 4 个 28.8Tbit/s 的 ASIC 交换机,需要近 1500W 的散热功率。
单独来看,1U 机箱实现 1500W 并不困难。但是,当考虑到从 ASIC 交换机到背板连接器的 Ultrapass 飞线会阻挡大量气流,冷却挑战就变得非常大了。
鉴于空气冷却的 MGX NVL 机架需要以极快的速度推向市场,英伟达试图在设计开始后 6 个月内就交付产品。然而,对于一个已经资源紧张的行业来说,设计新的交换托盘和供应链是非常困难的。
GB200A NVL64 的另一个主要问题是每个机架有 64 个 800G 后端端口,但每个 XDR Quantum-X800 Q3400 交换机搭载的是 72 个 800G 下游端口。也就是说,每个交换机将有 16 个 800G 端口空置。
在昂贵的后端交换机上有空置端口会显著影响网络性能和总拥有成本,因为交换机非常昂贵,尤其是像 Quantum-X800 这样高端口密度的模块化交换机。
此外,在同一个 NVLink 域中使用 64 个 GPU 并不理想。
表面上看,64 是一个很好的数字,因为它有 2、4、8、16 和 32 作为公因数,这对于不同的并行配置来说非常合适。
例如,张量并行 TP=8,专家并行 EP=8,或 TP=4,完全分片数据并行 FSDP=16。
不幸的是,由于硬件的不可靠性,英伟达建议每个 NVL 机架至少保留 1 个计算托盘作为备用,以便在维护时将 GPU 下线并作为热备份使用。
如果每个机架没有至少 1 个计算托盘处于热备用状态,即使是 1 个 GPU 故障也会导致整个机架被迫停用相当长的时间。这类似于在 8-GPU 的 HGX H100 服务器上,只要有 1 个 GPU 故障,就会迫使所有 8 个 H100 停用。
如果保留至少一个计算托盘作为热备份,意味着每个机架只有 60 个 GPU 能够处理工作负载。这样一来,刚刚提到的那些优势就不复存在了。
而 NVL36×2 或 NVL72 则搭载了 72 个 GPU,也就是说,用户不仅可以把 2 个计算托盘作为热备用,而且每个机架上仍有 64 个 GPU 可供使用。
GB200A NVL36 则可以有 1 个计算托盘作为热备用,此时有 2、4、8、16 作为并行方案的公因数。
对供应链的影响
根据 SemiAnalysis 的推测,GB200 NVL72 / 36x2 的出货量会减少或推迟,B100 和 B200 HGX 的出货量则会大幅减少。
同时,Hopper 的出货量将在 2024 年第四季度至 2025 年第一季度有所增加。
此外,GPU 的订单将在下半年从 HGX Blackwell 和 GB200 NVL36x2 转移到 MGX GB200A NVL36 上。
这将影响所有的 ODM 和组件供应商,因为出货和收入计划将在 2024 年第三季度至 2025 年第二季度发生显著变化。
-
- EUV光刻新方案,大幅降低成本!
-
2024-08-05 22:54:05
-
- 财税改革落地前夜,地方财政局长都在忙什么
-
2024-08-04 20:41:55
-
- 奶茶进入十元时代,新茶饮行业还在卷什么?
-
2024-08-04 20:39:39
-
- 苹果研发用心跳解锁 iPhone;周鸿祎:360 用户在为国家安全看广告:英伟达一
-
2024-08-04 20:37:23
-
- 热锅上的BBA,逆势涨价是对是错?
-
2024-08-04 20:35:07
-
- 硅谷“反向收购”新潮流:AI创始人,纷纷卖掉自己
-
2024-08-04 20:32:51
-
- 21岁郑钦文,1年赞助收入近4000万元!商业价值曝光
-
2024-08-04 20:30:35
-
- AI重新定义汽车,“蔚小理”抢先交卷
-
2024-08-04 20:28:19
-
- 东方甄选不是俞敏洪唯一的希望了
-
2024-08-04 20:26:03
-
- 智算中心芯片,谁在布局?
-
2024-08-04 20:23:47
-
- 中式武侠,韩国重生
-
2024-08-04 20:21:31
-
- 安格斯·迪顿:美国人滥用药物要中国负责?这是美国自己对自己发动的“鸦片战争
-
2024-08-03 19:33:44
-
- 席琳·迪翁,不屈的惊艳
-
2024-08-03 19:31:27
-
- 茅台向下,困住习酒
-
2024-08-03 19:29:10
-
- 耗时5个月解读《红楼梦》,这个反内卷的年轻人“想开了”
-
2024-08-03 19:26:54
-
- 英特尔「芯」痛:全球裁员1.5万人,利润暴跌85%
-
2024-08-03 19:24:37
-
- 小游戏没有梦想,暴富之下尽是梦碎
-
2024-08-03 19:22:21
-
- AI手机,苹果摸着安卓过河?
-
2024-08-03 19:20:04
-
- 在海外,Sora 正在被可灵替代
-
2024-08-03 19:17:47
-
- 系统梳理会员经济学
-
2024-08-03 19:15:30