通往AGI之路(1):“GPU不存在了”——写在英伟达发布会后

通往AGI之路(1):“GPU不存在了”——写在英伟达发布会后


通往AGI之路:GPU不存在了——写在英伟达发布会后

这个标题又在我脑子里转了很久,但是太大,以至于找不到合适的切入点,英伟达的发布会后似乎给到了一个契机,可以一点点去拆解的契机。

1、AGI的前提

其实,这个问题大家依然讨论的不够清楚的,但是在Transformer架构继续有效的背景下,似乎,更多的数据,更大规模的模型,是确定性更强的路,而关于数据,几乎没有争议的是:更多来自现实物理世界的数据。这个“更多”,可能意味着几个数量级,所以搞定数据是一条更长的路。更高效的数据计算,是另外一条无止尽的路,这,是英伟达Blackwell架构的目标,也是再一次领先于竞争对手的基础。

2、英伟达面对的硬件问题是:如何把尽可能大的计算需求装进有物理规律限制的硬件系统里,所以,从今天起,GPU不存在了,GPU系统才正确。

单芯片(die的叫法会更合适)的能力受限于摩尔定律,所以只能通过制程的不断提升,向“密度”要效益:制程越先进,单位面积里的晶体管数量越多,算力也越高。这是英伟达直到Hooper架构都在走的路。但是,竞争对手例如AMD,在MI300中就在通过chiplet扩展chip的实际面积,提升单chip的能力。

单die的能力提升速度是极有限的,所以,如果我们认真计算的话,实际上按照单die算,Blackwell只比Hooper提升了25%。但是,英伟达也开始提升chip的能力,一个Blackwell GPU是两个die“拼”在一起,所以Blackwell GPU是Hooper GPU的2.5倍算力(250%/2-100%=25%)。这一方面可以说单die提升很困难,另一方面,未尝不是另一种方向的尝试(我有一种推测:在H100依然供不应求,CoWoS不断扩产的背景下,技术上Blackwell架构可以更有效的利用现有的产能,另一方面,从产品形态上拉开差距,不至于影响H100的需求)。也从另一个侧面部分证实了英伟达之前漏出的路线图(从两年产品更新周期提升到一年产品更新周期)的真实性和可行性,明年如果发新架构,可以是3nm。我觉得这有点跟苹果的M芯片在学:每次制程升级,都先发布基础款,比如,M1、M2、M3都是最大做到MAX,放在MacBook、iMac、Mac Mini产品里,然后隔一段时间,将两块MAX“拼”在一起,做成Ultra放到Mac Studio或者Mac Pro中。

所以,通过“拼”,可以在同样制程下实现单chip能力翻倍以上的增长,但是受限于物理,这种“拼”一定也是很大的,否则苹果去年就该是将“四拼”的传说中的M2 Extreme放到Mac Pro中,而不是“双拼”的Ultra。当然,现在有传Apple Car团队在解散前基本搞定了“双拼”基础上的“四拼”。也说明这条路虽然难,但是相比die上更小的“螺丝壳”,能做的“道场”还是可以大一点。

物理空间再大一点,就是通过chip间互联了,所以使用NVLink,IB网络,通过集群“拼接”,只不过传输速度就大幅下降了。但是在ChatGPT出来之前,对最先进网络传输的需求一直是相对不足的,所以我们看到一头是800G光模块已经出来了,另一头却是200G交换机渗透率都很低。所以,过去一年多,更多是通过网络“补课”加快了集群的发展(当然,单chip能力和包含在内的HBM内存速度提升都有巨大贡献)。这是问“机房面积”要算力。所以,这可以叫做GPU集群。

但是Blackwell架构发布,英伟达也推出了GB200 NVL72(一个机柜18台服务器,每个服务器两块GB200,等于四个Blackwell GPU),然后“光明正大”的把这个也叫做“GPU”,当然,GPU系统会更合适。所以,对于AI而言:GPU不存在了,GPU系统才正确。

这就是硬件的进化之路,提升die上的算力-->提升chip上的算力--->提升系统上的算力。越往上,物理规律的限制越宽松,但是速度也越慢(AI模型无论训练还是推理实质上是数据的高速传输)。

但是技术的演进总会不断去突破物理规律的限制:制程是在die面积限制下提升算力密度;chip是在“拼”或者封装面积一定下提升算力密度;系统是在占地面积一定下提升算力密度(系统内无论是走Cerdes的铜还是走光纤,线的长度越长,速度衰减越显著)。

而最后一条,我们肉眼越直观:同样的机房面积下可以容纳多少算力(chip或die)?容纳的越多,线路越复杂,所以一个GB200 NVL72用到的铜线数量也是惊人的,2英里长。

这也是迄今为止,单机柜里容纳GPU数量最多的系统:一个机柜72个Blackwell GPU(每个GPU两个Blackwell die),而之前的数字大概是32个(DGX H100一个机柜四台机器,每台机器8个H100)。如果按照算力计算,GB200时代,单机柜算力是H100时代的72*2.5:32=180:32=5.625。

(分拆一下,单die提升25%,单chip再提升100%,单机柜再提升72/32-1=125%)

所以,如果认为通向AGI的前提之一是单集群算力2-5个数量级的提升,那么已经看到了在最大物理尺寸上(机柜)接近6倍的提升。我们也可以这样去前瞻:Meta之前搞定的24K张H100是公开可查的最大集群,那么同样机房面积下,下一步可以挑战的是,10万张卡的集群。

3、以大模型为基础,向物理世界要数据

如果,通向AGI之路,最终需要的是更多物理世界的数据;如果,万业皆计算,最终需要的也是更多物理世界的数据。

那么,数据怎么来?

我们需要一个载体,它既可以在跟物理世界的交互里完成越来越多的任务,也可以同时采集尽可能多的数据,这个载体就是Embodied AI,具身智能。所以,智能驾驶汽车是,机器人(不管是不是人形)也是。

抛开科幻里那些不切实际的可怕场景(我一直认为发生概率无限趋近于零)不谈,大语言模型给了一个非常好的基础:通过机器已经基本“理解”了的语言符号系统进行人机交互:下达指令,接受反馈。

机器在执行任务的过程中,采集数据,回到云端训练,往复迭代中,寻找是否可以“涌现”出“世界模型”的路,通向AGI的路。

4、从万物互联到万物计算

“移动互联网”时代也是“万物互联”时代,这个时代产生的极海量数据是人类能够拥有大模型的最重要基础。可是对于“数字孪生”的大门:在物理世界里交互,在数字世界里计算。“移动互联网”时代的积累最多只能敲开一丝门缝。

向万物计算的迈进中,我们需要计算器(GPU系统),我们需要计算程序(正在快速成型的大模型操作系统),我们需要前面说的具身智能。

冷静下来后蓦然发现,这是黄仁勋两个小时演讲展现出的真正的“世界观”,是英伟达作为万物计算的AI时代唯一基础设施的野心。

← Back to Blog