Sep 3, 2025

通往AGI之路（1）：“GPU不存在了”——写在英伟达发布会后

通往AGI之路：GPU不存在了——写在英伟达发布会后

这个标题又在我脑子里转了很久，但是太大，以至于找不到合适的切入点，英伟达的发布会后似乎给到了一个契机，可以一点点去拆解的契机。

1、AGI的前提

其实，这个问题大家依然讨论的不够清楚的，但是在Transformer架构继续有效的背景下，似乎，更多的数据，更大规模的模型，是确定性更强的路，而关于数据，几乎没有争议的是：更多来自现实物理世界的数据。这个“更多”，可能意味着几个数量级，所以搞定数据是一条更长的路。更高效的数据计算，是另外一条无止尽的路，这，是英伟达Blackwell架构的目标，也是再一次领先于竞争对手的基础。

2、英伟达面对的硬件问题是：如何把尽可能大的计算需求装进有物理规律限制的硬件系统里，所以，从今天起，GPU不存在了，GPU系统才正确。

单芯片（die的叫法会更合适）的能力受限于摩尔定律，所以只能通过制程的不断提升，向“密度”要效益：制程越先进，单位面积里的晶体管数量越多，算力也越高。这是英伟达直到Hooper架构都在走的路。但是，竞争对手例如AMD，在MI300中就在通过chiplet扩展chip的实际面积，提升单chip的能力。

单die的能力提升速度是极有限的，所以，如果我们认真计算的话，实际上按照单die算，Blackwell只比Hooper提升了25%。但是，英伟达也开始提升chip的能力，一个Blackwell GPU是两个die“拼”在一起，所以Blackwell GPU是Hooper GPU的2.5倍算力（250%/2-100%=25%）。这一方面可以说单die提升很困难，另一方面，未尝不是另一种方向的尝试（我有一种推测：在H100依然供不应求，CoWoS不断扩产的背景下，技术上Blackwell架构可以更有效的利用现有的产能，另一方面，从产品形态上拉开差距，不至于影响H100的需求）。也从另一个侧面部分证实了英伟达之前漏出的路线图（从两年产品更新周期提升到一年产品更新周期）的真实性和可行性，明年如果发新架构，可以是3nm。我觉得这有点跟苹果的M芯片在学：每次制程升级，都先发布基础款，比如，M1、M2、M3都是最大做到MAX，放在MacBook、iMac、Mac Mini产品里，然后隔一段时间，将两块MAX“拼”在一起，做成Ultra放到Mac Studio或者Mac Pro中。

所以，通过“拼”，可以在同样制程下实现单chip能力翻倍以上的增长，但是受限于物理，这种“拼”一定也是很大的，否则苹果去年就该是将“四拼”的传说中的M2 Extreme放到Mac Pro中，而不是“双拼”的Ultra。当然，现在有传Apple Car团队在解散前基本搞定了“双拼”基础上的“四拼”。也说明这条路虽然难，但是相比die上更小的“螺丝壳”，能做的“道场”还是可以大一点。

物理空间再大一点，就是通过chip间互联了，所以使用NVLink，IB网络，通过集群“拼接”，只不过传输速度就大幅下降了。但是在ChatGPT出来之前，对最先进网络传输的需求一直是相对不足的，所以我们看到一头是800G光模块已经出来了，另一头却是200G交换机渗透率都很低。所以，过去一年多，更多是通过网络“补课”加快了集群的发展（当然，单chip能力和包含在内的HBM内存速度提升都有巨大贡献）。这是问“机房面积”要算力。所以，这可以叫做GPU集群。

但是Blackwell架构发布，英伟达也推出了GB200 NVL72（一个机柜18台服务器，每个服务器两块GB200，等于四个Blackwell GPU），然后“光明正大”的把这个也叫做“GPU”，当然，GPU系统会更合适。所以，对于AI而言：GPU不存在了，GPU系统才正确。

这就是硬件的进化之路，提升die上的算力-->提升chip上的算力--->提升系统上的算力。越往上，物理规律的限制越宽松，但是速度也越慢（AI模型无论训练还是推理实质上是数据的高速传输）。

但是技术的演进总会不断去突破物理规律的限制：制程是在die面积限制下提升算力密度；chip是在“拼”或者封装面积一定下提升算力密度；系统是在占地面积一定下提升算力密度（系统内无论是走Cerdes的铜还是走光纤，线的长度越长，速度衰减越显著）。

而最后一条，我们肉眼越直观：同样的机房面积下可以容纳多少算力（chip或die）？容纳的越多，线路越复杂，所以一个GB200 NVL72用到的铜线数量也是惊人的，2英里长。

这也是迄今为止，单机柜里容纳GPU数量最多的系统：一个机柜72个Blackwell GPU（每个GPU两个Blackwell die），而之前的数字大概是32个（DGX H100一个机柜四台机器，每台机器8个H100）。如果按照算力计算，GB200时代，单机柜算力是H100时代的72*2.5:32=180:32=5.625。

（分拆一下，单die提升25%，单chip再提升100%，单机柜再提升72/32-1=125%）

所以，如果认为通向AGI的前提之一是单集群算力2-5个数量级的提升，那么已经看到了在最大物理尺寸上（机柜）接近6倍的提升。我们也可以这样去前瞻：Meta之前搞定的24K张H100是公开可查的最大集群，那么同样机房面积下，下一步可以挑战的是，10万张卡的集群。

3、以大模型为基础，向物理世界要数据

如果，通向AGI之路，最终需要的是更多物理世界的数据；如果，万业皆计算，最终需要的也是更多物理世界的数据。

那么，数据怎么来？

我们需要一个载体，它既可以在跟物理世界的交互里完成越来越多的任务，也可以同时采集尽可能多的数据，这个载体就是Embodied AI，具身智能。所以，智能驾驶汽车是，机器人（不管是不是人形）也是。

抛开科幻里那些不切实际的可怕场景（我一直认为发生概率无限趋近于零）不谈，大语言模型给了一个非常好的基础：通过机器已经基本“理解”了的语言符号系统进行人机交互：下达指令，接受反馈。

机器在执行任务的过程中，采集数据，回到云端训练，往复迭代中，寻找是否可以“涌现”出“世界模型”的路，通向AGI的路。

4、从万物互联到万物计算

“移动互联网”时代也是“万物互联”时代，这个时代产生的极海量数据是人类能够拥有大模型的最重要基础。可是对于“数字孪生”的大门：在物理世界里交互，在数字世界里计算。“移动互联网”时代的积累最多只能敲开一丝门缝。

向万物计算的迈进中，我们需要计算器（GPU系统），我们需要计算程序（正在快速成型的大模型操作系统），我们需要前面说的具身智能。

冷静下来后蓦然发现，这是黄仁勋两个小时演讲展现出的真正的“世界观”，是英伟达作为万物计算的AI时代唯一基础设施的野心。