【纯技术讨论】再谈算力成本,MaaS服务,应用

【纯技术讨论】再谈算力成本,MaaS服务,应用


反常规一次,在公众号里“堂而皇之”聊一下这个问题,但依旧是,纯技术讨论。

首先是R1的推理服务收益率,尤其是又一次辣眼睛的“545%”。文章已经写过了,我相信数字是正确的,但是实现这个数字的约束条件非常多:

1、全部按照R1模型收费,没有免费的网页版、APP,全部是API调用,全是R1; 2、必须至少全部是H800,而且都是八卡服务器,节点内NVLink连接,节点外是IB网络,这样的租赁费用是多少,有兴趣的可以查一下; 3、一个最小的优化单元是22个节点(4个prefill,18个decode),200张卡; 4、需求端,客户必须始终处于排队等待状态,就是所有服务器都随时处于满负荷输出状态,没有“青黄不接”现象; 5、按照最小的22个节点看,依然会存在专家模型间负载的不均衡,显著影响输出,所以还要再加大量冗余,给专家模型部署的动态调整(10-15分钟调整一次)留足空间,所以,1000张H800可能是比较合理的门槛;

灵魂拷问一下:谁有这么多卡,有这么多卡的是选择继续训练模型,还是彻底放弃干点毛利不断下降的推理服务?

第二个问题,来自于V2到V3的推理性能的变化。

上图来自于github上V2的pr,关于V2的推理性能的,单节点输出5万tokens/秒(应该是decode),按照DS上周六公布的数据,decode节点平均输出是14.8k,就是一万五不到一点,我们假设实际上峰值超过这个值,但是考虑到DS依然处于供不应求状态,所以峰值输出能力天花板应该就在2万tokens/秒比较合理。

作为同样的MoE架构,V2的激活参数是21B,V3是37B,规模上升,性能下降是必然的。但是5万到2万的下降比例超过50%(当然,也不能完全直接这么比,原因是DS公布的是R1的性能思考的开销会更大一点,但是因为基础模型是V3,所以从吞吐量而言V3和R1差别不会太大的),其中最大的因素应该就是V3的MoE架构在某种程度上已经开始碰到了单H800的HBM容量约束(80GB)。

如果还有V4,还是MoE,那么会是什么情况,我们可以脑补一下的。

MoE的优势就是资源开销小,训练和推理效率高。但是凡事终有极限,如果硬件就卡在H800上了,前景就变得不一定那么美妙了。

还有人会说,那大家都给DS卡,难道不行吗?当然有用,但是说了,单卡的内存容量上限就在那里摆着,FP8下的内存占用和bach size就在那里摆着。

NV在ChatGPT问世前介绍CUDA的材料的第一页的大标题就是:物理。

那国产算力可以跟上呀?长期一定可以,但是短时间,请看一看现实,再看一看DS在V3论文里对于芯片设计的建议,再来讨论。

还是那句话,物理。

所以,叫嚣“算力不重要了”的论调最终对国内的模型发展有百害而无一利(这是我反常规写这篇的最主要出发点)。

第三个问题,MaaS服务。

在之前已经简单讨论了要复现DS理论收益率的门槛:200和1000个H800。我之前就一直认为这可能是国内在未来一段时间里能够大规模拥有的最好硬件了。

模型服务降本的最大驱动力一定是来自于硬件升级。

image

上图是NV优化R1推理时的性能变化,既包含不同时间,也包含不同硬件。我认为实际差距应该没这么夸张,同时Blackwell应该是使用了FP4的优化。但是,明显的代际差别是清晰可见的。同时,如果这个硬件基础给到DS团队来优化,应该还能提升几倍。

可是,DS应该不太可能拿到Blackwell的高配集群来训练,国内的服务商也应该不会部署这样的集群拿来提供模型推理服务,即MaaS服务。

如今的“低价”,大概就是打到地板价了。除非会计上H800不断折旧,推理成本在“财务意义”上还可以下降。可是,谁会这么“虎”拿最好的硬件用来推理而不是训练呢?

然而,相比本地部署,MaaS服务依然具备巨大的吸引力:推理速度更快,综合成本更低,主要是当前阶段就应该多“薅羊毛”。

会有一堆堆得理由讲本地部署得意义,主要是数据安全。也许需要规划的是业务流程,真的梳理一下哪些本地数据是一定需要模型而不是写点简单程序来处理的,哪些“本地数据”其实根本就是互联网数据?

所以,技术层面,MaaS应该能用尽用,商业层面,“薅羊毛”的另一面是什么?

最后是应用。我们经历过“互联网+”,经历过“AI+”,如今经历“R1+”。在大势面前,我不敢说什么。我只是有这样的亲身经历:过去两年里,每一次AI提升我的效率,都是因为最好的模型变得更好了,或者出现了比最好更好的模型,比如当初的Claude3.5到现在的3.7,比如Gemini2.0,比如Deep Research。

可是,我也有一个最粗浅的认知:如果基于“最好的”都没创造出什么新应用,基于“赶上的”就可以了?

AI应用一定前景非常广阔,但是在此刻大概可以做个逆向筛选器:我是一定会离那些“因为有了R1加持,能力就提升了多少多少”的越远越好的。

← Back to Blog