Sep 3, 2025

三台Mac Studio等于4块H100？本地推理Llama-405B

前后折腾了一天多，终于在昨天晚上搞定了Mac Studio集群本地推理LlaMa-3.1-405B模型。

具体的方法在三台Mac Studio跑模型文章里介绍过了，就不再赘述了，简述一下心路历程：

稳定加载后，初步尝试，推理速度4tokens/S，其实不算慢，但是总还是觉得有些问题，然后又是一通网络调整，终于：

对，没看错，7.3tokens/S。

虽然跟我测算的理论值10tokens/S还有些差距，但是已经很满意了。

跑起来后是这样的（无变速）：

结果对不对先不管，至少这个速度可以达到可用级别了。

然后，我忍不住要去跟之前说过的利用四块H100跑模型的结果去比较了（在H100上快速部署了llama3.1-405B模型）。这个环境是四块H100（PCI-E），偷懒直接使用了Ollama的推理，效果是这样的：

至于推理速度：

居然也是7.3tokens/S。

但是实事求是讲，实际视频里的感受，一定是H100的速度要更快一点，这里，我认为是ollama与exolabs的UI底层（tinygrad）计算方法的偏差，但是这个速度差距并不很显著。

终于，在这个夏天，期待的模型发了，想要的环境部署好了，该做的测试也告一段落了，下一阶段要干“正事”了。