物理约束

物理约束


物理约束

英伟达今年720万张卡,其中Hopper约45万,再去掉H20和B30约140万,芯片功耗约5500K * 1.2KW = 6600MW * 1.5(服务器,网络等系统)= 9,900MW。

26年等效Blackwell为700万张(Blackwell 390万,Rubin 210万,每cowos中介层可以出15和10张),功耗为7000K * 1.2KW = 8400MW * 1.5 = 12,600MW。

加速芯片里英伟达占Cowos产能在65%左右,假设其它家芯片(ASIC,AMD)系统功耗低于英伟达,即使按一半功耗计算,25年及26年的新增数据中心电力需求分别为9900MW * (1 + 35%/2/65%) = 12,565MW 和 12600MW * (1 + 35%/2/65%) = 15,992MW。

按照IDC数据,全球到26年相比24年数据中心新增容量(不包括中国,中国可以新增约25GW)约20GW,已经不能满足需求了。同时,这是全口径数据中心,许多扩容项目并不满足新一代芯片要求。

实际上,电力之后,机架、散热、供水等物理约束会更大。

Token变化趋势

Token的增长主要来自于搜索和coding,Google保持每两个月调用量翻翻,OpenRouter也是这个趋势,但是目前已经呈现出此消彼长的情况了,预计调用量翻翻的速度会下降到三到四个月。

Google的Gemini六月份日均调用量30T,这个数字超过Claude,同时因为GPT模型编程能力较弱,所以Gemini的Token调用量应该也是超过GPT的,如果再考虑Grok和一些云端的开源模型部署,Gemini的调用量应该可以占到中国以外市场的30%,那么截止八月底(相比六月翻翻),中国以外市场日均token调用量约为30T * 2 / 30% = 200T。

考虑token分布,在典型的对话中,输入token与输出token的比例大约是3-5:1,AI搜索和AI Coding中比例超过100:1,所以95%的输入token,5%的输出token从收入端角度计算已经是很乐观的假设了。输入token中还有超过50%的会命中cache。

收费上,Gemini-2.5-Flash的输入是$0.3,输出为$2.5;Claude-Sonnet输入为$3-6,输出为$15-22.5,GPT-5为$1.25和$10。命中缓存价格按五分之一算(Claude和GPT是十分之一)。

那么每天的AI收入为 200T/1M * 5% * (2.5 + 15 + 10)/3 + 200T/1M * 95% * (0.3 + 3 + 1.25)/3 * (0.5 + 0.5/5) = $91.7M + $167.4M = $259.1M。

极度乐观情况下,预计到明年年底,每三个月token数量翻倍,token价格因硬件升级下降到30%,剩余16个月,token量增长40倍,日token收入为12倍,2026年年底日收入上限为 $259.1M * 12 = $3,109M。

以上计算,是一个极度乐观的情况,关键变量是token增速,如果放缓到四个月(平均),那么就变为 $1,244M,如果放缓到半年(平均),$493.6M。

按照以上极度乐观假设,年化收入约1万亿美金,基本等于美国上市公司(扣除Mag7及AI相关硬件公司)一年的全部利润。

物理约束

← Back to Blog