Oct 12, 2025

海量算力投资背后的不确定性：模型架构与硬件架构的高度绑定，基于Gemini-2.5分析的结果

算力需求是一个很复杂的问题，为了AI训练，为了AGI或者ASI的目标，当然说再高也不过分，但在我的思考框架里，最近运行到了比较细化的使用成本模型。

具体而言，就是回答：在不同模型架构下，随着硬件提升，性能提高在哪里，关键堵点在什么地方，这关系到商业化落地，也关系到未来的演进方向。

在尽可能简化后，我还是回到MLPerf的推理性能数据，从V3.0-V5.1，硬件涉及A100，H100，H200，B200，GB200 NVL-72，以及L40S和R6000；模型涉及GPT-J、llama-2-70b、llama-405b、DeepSeek-R1、Stable Diffusion-XL。

我肉眼看了这些数据，但是为了更完整的分析和出图，还是借助了模型，分别是GPT-5-Pro+GPT-Agent，以及AI-Studio中的Gemini-2.5-Pro。

GPT-5-Pro其实完成的很好，分析，画图，还直接帮我做了个可视化的网站，但是在看了Gemini-2.5-Pro的输出后，我毫不犹豫选择了Gemini，原因：1.对于GPU数量的理解Gemini显然更到位，很清楚的直到GB200是72个GPU节点（18X4）；2.原因分析到位，全面。

我先说自己的结论：

现阶段，硬件架构与模型架构的耦合度太高了，以GB200 NVL-72和DGX B200举例，对于MoE架构的R1，性能差距是接近十倍，但是如果采用Dense的llama-405B，差距缩小到4-5倍左右。意味着，如果未来模型在某一天要回到更大的dense的话，NVL-72显然是非常不划算的，当然，你可以说这个集群最适合拿来训练，那么，我就要继续“控诉”NV的“虚假宣传”了，因为如今最新的版本是如果投资NVL-72，可以通过推理获得15倍的回报；
如果我们认为下面的爆点是多模态，虽然SD-XL只是初代的文生图模型，但它的结果能够代表图片和视频生成的某种性能比较：B200相对于H200，性能提升是不到两倍的，别忘了，B200是两个die，理论上不考虑HBM带宽的话，性能是一个Hopper Die的2.5倍左右；Blackwell芯片给多模态带来的增益很有限；
HBM带宽对推理性能的影响是非常直接的：在可以单卡装下的模型推理中，H200比H100的提升就是超过30%，内存带宽4.8T比3.35T；
站在目前的时点上，未来两三年内模型架构产生巨大变化的概率非常高，意味着硬件架构也将随之产生较大的变化，这种不确定性对于模型公司和CSP运营商都是巨大的挑战；
原谅我不能说的更直白了；

在给出Gemini的报告之前，先贴几个来自于GPT-5-Pro的截图。

GPT-5-Pro Analysis 2

然后是完整的Gemini给出的报告（在它生成的matplot图里有乱码，是因为中文字体支持的设置原因，熟悉Python的应该都清楚这个问题，需要改系统字库，但是在Gemini里因为代码跑在sandbox中，所以就没法改了），还有补充一点，在它的回复里，报告文本和图是分开的，图放置了placeholder，所以我手工贴了一下。肯定有人会问我如何设置，那么在AI-Studio里如下图，开启“Code Execution”和“Grounding”。最近一直有人问我Gemini“降智”的问题，我的回答是没有发现，可能就跟提示词和使用方法有关吧。

另外，文中有一些小bug，看是否有“眼尖”的朋友找出来。

AI-Studio Settings

AI加速器性能基准综合分析报告 (高阶详尽版)

1. 报告引言

本报告基于MLCommons® Inference v3.1, v4.0, v4.1, v5.0, v5.1的公开基准测试结果，对当前主流的AI加速器（包括NVIDIA GPU及Google TPU）进行了全面而深入的性能评估。报告旨在为AI基础设施决策者、研究人员和工程师提供一个详尽、量化的性能参考。

分析维度涵盖：

加速器维度：评估了从Ampere架构到最新的Blackwell架构的多款NVIDIA GPU以及Google的TPU v5e。
模型维度：涵盖了从业界广泛使用到代表前沿趋势的五种AI模型，包括gptj-99, llama2-70b-99.9, stable-diffusion-xl, deepseek-r1 和 llama3.1-405b。
场景维度：区分了衡量最大吞吐量的“离线（Offline）”场景和模拟真实世界服务的“服务器（Server）”场景。

报告的核心是提供 原始性能数据 与 标准化的“每加速器性能” 两个层面的对比，并结合硬件的核心技术规格，进行深入的图文分析。

2. 数据与方法论

2.1. 数据来源与整合

本报告整合了五个不同版本的MLCommons Inference测试结果文件。所有数据被合并成一个统一的数据集，并经过了严格的数据清洗流程，包括统一列名、移除冗余数据以及处理缺失值。

2.2. 核心计算指标

为确保比较的公平性和穿透性，我们定义了以下核心指标：

加速器总数 (Total Accelerators)：测试平台中使用的芯片总数量 (节点数 × 每节点加速器数量)。
每加速器性能 (Result per Accelerator)：这是本报告最重要的标准化指标，通过基准测试平均结果 / 加速器总数计算得出。它剥离了集群规模的影响，用以衡量单个芯片的真实推理能力。

3. 加速器核心技术规格

理解硬件的理论上限是分析其性能表现的基础。下表汇总了报告中涉及的各款加速器的核心技术规格：

加速器 (Accelerator)	架构 (Architecture)	FP16/BF16 算力 (TFLOPS)	内存类型 (Memory)	内存带宽 (GB/s)	设计功耗 (W, 约)
NVIDIA A100-PCIe-80GB	Ampere	624	HBM2e	1935	300
NVIDIA A100-SXM-80GB	Ampere	624	HBM2e	2039	400
NVIDIA L40S	Ada Lovelace	733	GDDR6	864	350
NVIDIA H100-PCIe-80GB	Hopper	1513	HBM3	2000	350
NVIDIA H100-SXM-80GB	Hopper	1979	HBM3	3350	700
NVIDIA H100 NVL	Hopper	3342	HBM3	7800	800
NVIDIA H200-SXM-141GB	Hopper	1979	HBM3e	4800	700
Virtualized H200-SXM-141GB	Hopper	1979	HBM3e	4800	700
NVIDIA H200-NVL-141GB	Hopper	3958	HBM3e	9600	1200
NVIDIA GH200 Superchip	Hopper	1979	LPDDR5X	4800	1000
NVIDIA RTX 6000 Blackwell	Blackwell	250	GDDR7	1792	600
NVIDIA B200-SXM-180GB	Blackwell	2500	HBM3e	8000	1000
NVIDIA GB200 Superchip	Blackwell	2500	HBM3e	8000	1000
Google TPU v5e	TPU v5	197	-	819	未知

4. 各模型详细性能分析

4.1. GPTJ-99 模型

GPTJ-99 是一个中等规模（60亿参数）的语言模型，常用于评估加速器处理标准NLP任务的基线性能。

加速器	场景	平均总结果	每加速器平均结果	平均加速器总数
NVIDIA A100-PCIe-80GB	Offline	14.70	3.68	4.0
NVIDIA A100-PCIe-80GB	Server	13.81	3.45	4.0
NVIDIA A100-SXM-80GB	Offline	27.13	3.39	8.0
NVIDIA A100-SXM-80GB	Server	16.92	2.12	8.0
NVIDIA GH200 Superchip	Offline	26.00	26.00	1.0
NVIDIA GH200 Superchip	Server	24.62	24.62	1.0
NVIDIA H100 NVL	Offline	43.56	21.78	2.0
NVIDIA H100 NVL	Server	42.07	21.04	2.0
NVIDIA H100-PCIe-80GB	Offline	4352.75	1089.08	4.7
NVIDIA H100-PCIe-80GB	Server	3395.97	932.53	4.7
NVIDIA H100-SXM-80GB	Offline	7470.24	1001.95	6.8
NVIDIA H100-SXM-80GB	Server	7353.27	985.96	6.8
NVIDIA H200-NVL-141GB	Offline	17905.15	2238.14	8.0
NVIDIA H200-NVL-141GB	Server	18141.45	2267.68	8.0
NVIDIA H200-SXM-141GB	Offline	18090.81	2412.90	7.3
NVIDIA H200-SXM-141GB	Server	18045.91	2399.25	7.3
NVIDIA L40S	Offline	2275.52	525.25	4.9
NVIDIA L40S	Server	2190.09	508.65	4.9
Google TPU v5e	Offline	9.98	2.50	4.0
Google TPU v5e	Server	7.19	1.80	4.0

注：不同版本测试的单位（Samples/s 或 Tokens/s）不同，此处统一对比数值大小。

Offline (离线) 场景: GPTJ Offline Chart

Server (服务器) 场景: GPTJ Server Chart

分析洞见：

H200系列领先：无论是Offline还是Server场景，H200系列（SXM和NVL版本）的单卡性能都遥遥领先，这主要归功于其高达4.8 GB/s的HBM3e内存带宽，这对语言模型至关重要。
SXM封装优势：H100-SXM的每加速器性能显著高于H100-PCIe版本，体现了更高功耗和NVLink互联带来的优势。
TPU v5e表现：在此项测试中，TPU v5e的性能与上一代A100系列接近，但与Hopper及更新架构的GPU存在较大差距。

4.2. Llama2-70b-99.9 模型

Llama2-70b 是一个700亿参数的大型语言模型，是评估现代AI加速器处理主流大模型能力的核心基准。

加速器	场景	平均总结果 (Tokens/s)	每加速器平均结果 (Tokens/s)	平均加速器总数
NVIDIA B200-SXM-180GB	Offline	88741.00	12303.93	7.2
NVIDIA B200-SXM-180GB	Server	88345.62	12218.53	7.2
NVIDIA GB200	Offline	50710.20	12677.55	4.0
NVIDIA GB200	Server	49287.75	12321.94	4.0
NVIDIA GH200 Superchip	Offline	3871.47	3871.47	1.0
NVIDIA GH200 Superchip	Server	3616.88	3616.88	1.0
NVIDIA H100 NVL	Offline	9493.01	1917.94	5.0
NVIDIA H100 NVL	Server	8866.93	1756.92	5.0
NVIDIA H100-PCIe-80GB	Offline	6759.53	1399.84	5.0
NVIDIA H100-PCIe-80GB	Server	5697.54	1171.44	5.0
NVIDIA H100-SXM-80GB	Offline	27825.32	3748.26	9.0
NVIDIA H100-SXM-80GB	Server	26364.50	3544.65	9.0
NVIDIA H200-NVL-141GB	Offline	27689.65	3777.19	7.3
NVIDIA H200-NVL-141GB	Server	25210.00	3437.31	7.3
NVIDIA H200-SXM-141GB	Offline	34497.33	4379.04	8.1
NVIDIA H200-SXM-141GB	Server	32453.00	4113.87	8.1
NVIDIA L40S	Offline	3143.23	446.58	7.0
NVIDIA L40S	Server	2767.63	391.87	7.0
NVIDIA RTX PRO 6000	Offline	26205.30	3275.66	8.0
NVIDIA RTX PRO 6000	Server	26001.04	3250.13	8.0
Virtualized NVIDIA H200-SXM	Offline	34485.70	4310.71	8.0
Virtualized NVIDIA H200-SXM	Server	33370.58	4171.32	8.0

Offline (离线) 场景: Llama2 Offline Chart

Server (服务器) 场景: Llama2 Server Chart

分析洞见：

Blackwell架构的统治力：B200和GB200的单卡性能实现了惊人的飞跃，是H200系列的三倍左右。这表明Blackwell架构针对Transformer模型进行了深度优化，8000 GB/s的内存带宽和更高的算力是关键因素。
虚拟化性能优异：虚拟化的H200-SXM性能几乎与物理机持平，证明了现代GPU虚拟化技术对于大型语言模型推理负载的高效性。
L40S的定位：L40S作为一款主要面向图形和通用计算的卡，在大型语言模型推理上性能远低于专用的数据中心卡（如H/B/G系列），显示了产品定位的差异。

4.3. Stable-Diffusion-XL 模型

Stable-Diffusion-XL 是一个先进的文生图模型，其U-Net结构对计算和内存访问都提出了很高的要求。

加速器	场景	平均总结果 (Samples/s)	每加速器平均结果 (Samples/s)	平均加速器总数
NVIDIA B200-SXM-180GB	Offline	29.24	3.95	7.4
NVIDIA B200-SXM-180GB	Server	26.44	3.56	7.4
NVIDIA GH200 Superchip	Offline	1.78	1.78	1.0
NVIDIA GH200 Superchip	Server	1.68	1.68	1.0
NVIDIA H100-PCIe-80GB	Offline	5.94	1.20	5.0
NVIDIA H100-PCIe-80GB	Server	5.04	1.02	5.0
NVIDIA H100-SXM-80GB	Offline	13.12	1.89	6.9
NVIDIA H100-SXM-80GB	Server	12.67	1.82	6.9
NVIDIA H200-NVL-141GB	Offline	14.93	2.07	7.2
NVIDIA H200-NVL-141GB	Server	14.05	1.95	7.2
NVIDIA H200-SXM-141GB	Offline	17.86	2.30	7.8
NVIDIA H200-SXM-141GB	Server	16.54	2.12	7.8
NVIDIA L40S	Offline	3.80	0.67	5.7
NVIDIA L40S	Server	3.61	0.62	5.7
NVIDIA RTX PRO 6000	Offline	11.08	1.38	8.0
NVIDIA RTX PRO 6000	Server	10.88	1.36	8.0
Google TPU v5e	Offline	1.75	0.44	4.0
Google TPU v5e	Server	1.55	0.39	4.0
Virtualized NVIDIA H200-SXM	Offline	18.64	2.33	8.0
Virtualized NVIDIA H200-SXM	Server	17.95	2.24	8.0

Offline (离线) 场景: SDXL Offline Chart

Server (服务器) 场景: SDXL Server Chart

分析洞见：

B200性能翻倍：B200的每加速器性能大约是H100-SXM的两倍，是H200-SXM的1.7倍左右，再次证明了Blackwell架构的巨大提升。
虚拟化开销极低：虚拟化的H200甚至在离线场景下取得了比物理H200更高的平均性能分，这可能源于测试系统配置的微小差异，但足以证明其虚拟化方案对于此类负载的开销极低。
GH200表现：Grace Hopper Superchip在此项测试中的单卡性能与H100-SXM相当，体现了Hopper GPU核心的强大能力。

4.4. Deepseek-R1 模型

Deepseek-R1 是一个新兴的大型模型，此处的测试结果主要来自大规模集群配置，用以展现顶级系统的扩展能力。

加速器	场景	平均总结果 (Samples/s)	每加速器平均结果 (Samples/s)	平均加速器总数
NVIDIA B200-SXM-180GB	Offline	31486.55	3935.82	8.0
NVIDIA B200-SXM-180GB	Server	15415.43	1926.93	8.0
NVIDIA GB200	Offline	289712.00	72428.00	72.0
NVIDIA GB200	Server	167578.00	41894.50	72.0

Offline (离线) 场景: Deepseek Offline Chart

Server (服务器) 场景: Deepseek Server Chart

分析洞见：

规模效应的极致体现：GB200的性能数字极为惊人，其“每加速器”性能也远高于B200。这揭示了一个重要事实：该测试提交者（NVIDIA）利用了NVL72集群的庞大规模和高速互联，实现了远超线性的性能扩展。
Server场景的挑战：在Server场景下，即使是GB200集群，其每加速器性能也相比Offline场景大幅下降，反映了实时、低延迟约束下的利用率挑战。

4.5. Llama3.1-405b 模型

Llama3.1-405b 是一个拥有4050亿参数的超大规模模型，是目前对AI硬件性能和内存容量的终极考验。

加速器	场景	平均总结果 (Samples/s)	每加速器平均结果 (Samples/s)	平均加速器总数
NVIDIA B200-SXM-180GB	Offline	1613.16	201.65	8.0
NVIDIA B200-SXM-180GB	Server	1179.05	147.38	8.0
NVIDIA GB200	Offline	6233.13	1558.28	31.2
NVIDIA GB200	Server	4433.33	1108.33	31.2
NVIDIA H100-SXM-80GB	Offline	794.56	99.32	16.0
NVIDIA H100-SXM-80GB	Server	557.35	69.67	16.0
NVIDIA H200-SXM-141GB	Offline	610.17	76.27	8.8
NVIDIA H200-SXM-141GB	Server	319.86	39.98	8.8
Virtualized NVIDIA H200-SXM	Offline	547.26	68.41	8.0
Virtualized NVIDIA H200-SXM	Server	277.33	34.67	8.0

Offline (离线) 场景: Llama3.1 Offline Chart

Server (服务器) 场景: Llama3.1 Server Chart

分析洞见：

GB200为巨型模型而生：与deepseek-r1类似，GB200在处理Llama3.1-405b时再次展现了其作为大规模集群系统的威力，性能遥遥领先。
内存成为瓶颈：H200虽然内存带宽高于H100，但在此模型上每加速器性能反而偏低。这可能是因为H100的测试配置使用了更多的GPU进行张量并行，而H200测试配置GPU数量较少，导致通信或内存瓶颈更为突出。
Blackwell的代际飞跃：B200的单卡性能约为H100的两倍，印证了Blackwell架构的成功。

5. 综合结论

架构演进是核心驱动力: 从Ampere到Hopper，再到Blackwell，每一代NVIDIA GPU架构都带来了显著提升。最新的Blackwell架构确立了新的性能标杆。
“水桶”效应：算力、内存与互联缺一不可:
- 算力是基础，但对于大模型，内存带宽往往成为更关键的瓶颈。H200相较于H100的优势主要来源于此。
- 当模型规模大到单节点无法承载时，高速互联技术（如NVLink）成为关键。GB200的表现就是最佳例证。
产品定位决定适用场景:
- 数据中心旗舰 (B200, H200/H100-SXM) 是处理最前沿任务的首选。
- PCIe形态适合中等规模任务，性价比较高。
虚拟化技术已然成熟: GPU虚拟化方案在AI推理场景下表现出极低的性能开销。

综上所述，AI硬件的选择是一个多维度的决策过程。本报告通过对MLCommons基准数据的详尽分析，希望能够为相关决策提供数据支持。