Sep 3, 2025

2025的AI开局没有“黑科技”——简评英伟达最新的两个硬件发布

CES开幕在即，2025年AI的序幕也当然需要由英伟达开启，由老黄的演讲拉开。

关于英伟达软件平台和生态的部分，一直是讲不太清楚的：非常好的设计，但是说不清楚的用户体验。

所以，就集中在两个新硬件上：基于Blackwell架构的消费级显卡50系列，这是现货；以及一个期货，AIPC概念的Project DIGITS。

50系列显卡与AI推理需求

首先是，50系列显卡，在英伟达产品线定位里一直属于游戏业务。但是自从2023年AI大火之后，开始有了大量的本地推理的需求。当时作为和H100同代架构（Ada Lovelace）的40系列显卡，就成为了最高性能的选择。

其实光从GPU本身能力而言，40系列的最高端卡4090还强于H100，只是因为使用的DDR6X内存带宽不如HBM，所以，综合推理性能会差一点。两者相比较，40系列的优势是可以作为游戏、图像视频和3D渲染，是正宗的显卡，弱势是显存容量最高24GB，不能加载较大规模的模型，同时没有NVLink，不支持卡间高速互联；H100的优势自然是80GB的HBM内存，NVLink支持大集群互联，弱势就是不能作为显卡。

另外，40系列可以配到高级的台式机，功耗、散热、噪音方面的控制相对容易，H100至少是高级工作站和服务器，对机房环境等等要求都更高。

所以，H100只能是AI，40系列显卡是游戏、图像视频处理、3D渲染方面的最顶级选择，同时可以兼顾一般AI应用。当然，刀法精准的英伟达还有另一条产品线RTX A系列，其中后缀Ada的产品与40系列同架构，例如，RTX6000 Ada就是Ada Lovelace架构。显存配置到48GB，是4090的两倍，但是内存带宽略低一些。无论是渲染速度还是AI推理性能，都稍低于4090（实测差距一定在10%以内），但是单卡功耗更低，体积更小，显存更大。其实是高端个人或者工作室介于H100和40系列之间的最佳选择。

以上为一些基本信息的铺垫，进入主角，基于Blackwell架构的50系列显卡登场。因为只是点评，所以只针对最高端的产品：5090。

自从英伟达去年年初发布Blackwell架构之后，其实很多人对50系列显卡是有期待的，特别是在AI能力方面。

Performance Comparison

因此，在性能的对比里加入了Flux.1模型图像生成能力的对比。发布会也专门介绍了时间对比：基于4090卡，生成一张图需要15S，基于5090，同样的提示词和参数大小（严谨起见，不能说同样的图），只需要5S多。

如果看上面的性能对比，特别是把游戏和图像生成结合起来看，似乎这个性能提升是非常可观的。不过，尽管游戏性能评价是我的“盲区”，但是在对比测视的软硬件环境里标注了：40系列卡使用的是DLSS FG（Frame Generation），50系列卡使用了DLSS MFG（Multiple Frames Generation），看起来，更多是在算法层面的提升，而不是硬件能力的提升。

所以这张性能对比图里，左边两个项目或许更能反映硬件的实际性能提升：约20%，不到30%。

这跟去年发布Blackwell架构时的认知是一致的：按单Die计算，Blackwell想不Hopper的提升就是约25%，这还是因为Die Size增加了。

那么图像生成是怎么回事？测试条件里写的很清楚（虽然新闻稿很含糊，性能测试图里的条件的字体也是尽可能地小）：40系列用的是FP8，50系列使用的FP4。所以，生成速度对比如果是15S比6S，是2.5X，把精度拉成一致，还是1.25X，25%的性能提升。

20%-30%，这就是Blackwell架构真正的硬件能力的提升幅度。

是的，其实在去年Blackwell架构发布的时候，包括我在内，有不少人YY过如果50系列卡也像B200一样，两个Die Size，会很“爆”。事实是，这种YY并没有发生。

GPU Architecture

如果我们再结合从30系列开始的三代产品看的话，或许会有更有意思的发现：性能提升最明显的是30系列到40系列。因为各种原因，4090卡在国内的价格一直在涨。

英伟达不再在Spec里公布不同精度下的FLOPS性能，而是换了一个AI TOPS的概念：用FP4的3352TOPS对比4090卡在FP8下的1321TOPS，如果换算回FP8精度，就是1676TOPS比1321TOPS，不到27%的提升。

AI TOPS Specs

如果我们再较真一下发布时间，也会发现从40系列到50系列的发布时间，相比从40系列到30系列的发布时间，大约延长了两个月左右。是的，漂亮外衣包裹下的真相是：没有黑科技。如果我们再去看功耗：575W比450W，超过了27%。

市场有很多聪明人，发布会后英伟达的股价走势大概说明了一切吧。当然，50系列有它很好的“卖点”：如果你需要DLSS 4和FP4，因为40系列都没有。

通俗一点说，就是如果4090下的游戏体验不能得到满足，那么5090是必然选择；如果AI模型推理，FP4精度的效果已经能够满足要求，那么5090大概可以比4090节省一半的使用费用。

第二个硬件发布：Project DIGITS

Project DIGITS

这是一个意外的惊喜，全市场都知道英伟达和联发科在搞SoC。苹果新一代的Mac Mini发布后，让越来越多人意识到桌面小型的AIPC的巨大需求和市场潜力。所以，体积和外形上，这个产品很可以。

DIGITS Compact Form

性能上，FP4下的1PetaFLOPs，虽然不到5090的三分之一，但是如果综合考虑体积和功耗，其实，很好了。当然，硬件上最大的亮点其实是ConnectX芯片。因为毕竟是期货，英伟达没有公布实际的网络性能，但是理论上是可以达到400Gbps的机器间互联带宽的。

ConnectX Networking

对标苹果M4 Max能够支持的最大128GB一体化内存。纸面上更强一点的CPU和GPU性能（CPU是联发科的，20核心，超过M4 Max的16核，但初步预测打不过M4 Max。苹果不公布GPU的算力，但是就内存带宽和平时使用对比而言，M4 Max应该不如英伟达这颗GB10）。

所以，GPU性能，互联带宽方面，英伟达的DIGITS可能都会强于M4，内存容量持平，带宽上可能DIGITS更高。性价比上，DIGITS更高，但是，如果就综合应用的生态而言，苹果会强很多。

目前对基于ARM架构的SoC芯片支持最好的系统，只有苹果自家的MacOS。无论Linux还是Windows，对ARM的支持都很差。桌面系统是讲生态支持的，愿意折腾底层的用户全球算下来不会超过500万。即使英伟达通过Orin系列产品已经提供了Linux系统下很好的生态支持，但是要搞定系统部署尤其是错误修复，依然需要较为丰富的Linux系统下的开发经验的。

另外，DIGITS真正的发货时间至少会在5月份以后，而这个夏天，苹果的M5要来了。所以，这个产品是我期待的，但市场空间，我并不看好，更何况，还是期货。

对了，很多公开的较为可靠的信息源已经在说：苹果在重新设计SoC芯片，也在重新设计机器间互联能力，这条路已经很清晰的放在苹果面前。是的，Project DIGITS也没有任何黑科技。

总结

去年初发布的Blackwell架构最大的价值是两个Die的互联，以及GPU间互联的能力。去掉这两项，持续了好几年的摩尔定律逐渐失效的残酷现实就又会摆在我们面前，更可怕的是单芯片而言，纯硬件层面的性价比都没有提升。

2025年开始，对英伟达最大的两个期待是基于Blackwell的大集群（比如那个三万张卡，或者传说中的十万张卡）的真正落地，和已经有些确切信息的下一代Rubin架构。然而，AI应用落地讨论的越多，我们或许会发现，其他基础设施和系统生态等“软实力”方面的约束就越清晰的显露出来。