Sep 3, 2025

AI快评：Meta发布LLaMa3基础设施：两个24576张H100卡的超大集群

中文 (Chinese) English

Meta 发布 LLaMa 3 训练基础设施：两大万卡 H100 集群

Meta 于昨晚发布了用于训练 LLaMa3 模型的基础设施：包含两个 24576 张 H100 GPU 的超大集群。

原文链接为：https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

简单评价如下：

规模最大： 这是目前公开资料可查的规模最大的单算力集群，不仅卡的数量超过之前评论过的字节的万卡集群（A100/A800 为主），GPU 更是全部采用了 H100。理论算力超过字节万卡集群至少 20 倍以上；
开源承诺： 这篇文章反复提到 Meta 对于开放式 AI 的承诺与贡献，意味着 LLaMa-3 超过 95% 概率依然是开源（开源 checkpoint，即模型权重）的；
多模态可能： 该集群具备超高的吞吐率，不仅能够同时训练上千个模型，更是能充分利用 Meta 在文字、图像、视频等方面的数据优势：90% 概率以上 LLaMa-3 是多模态的；
蓄势待发： LLaMa-3 已经箭在弦上了。

上面都是手工输入内容，以下都是 AI 生成内容。

更多信息，请参考 Gemini 1.0 Ultra 根据英文原文生成的中文摘要（未作任何修改）：

Meta 开发 GenAI 基础设施

作者： Kevin Lee, Adi Gangidi, Mathew Oldham

Meta 宣布推出两个由 24k GPU 组成的集群，体现了 Meta 对 AI 未来的巨大投入。文章分享了硬件、网络、存储、设计、性能和软件方面的细节，以实现 AI 应用的高吞吐量和可靠性。新集群目前已用于 Llama 3 的训练。

Meta 致力于开源计算和开放创新。这些集群构建在 Grand Teton、OpenRack 和 PyTorch 之上，将继续推动整个行业的开放创新。

这一举措是 Meta 宏伟基础设施路线图的一个重要里程碑。到 2024 年底，Meta 的目标是继续扩大基础设施建设规模，其中包括 350,000 个 NVIDIA H100 GPU，并提供相当于近 600,000 个 H100 的计算能力。

Meta 的大型 AI 集群

Meta 的长期愿景是打造开放且负责任的人工通用智能 (AGI)。在实现 AGI 愿景的过程中，Meta 也在努力扩展集群以支持这一目标。

Meta 在构建 AI 基础设施方面有着悠久的历史。早在 2022 年，Meta 就公布了首个 AI 超级集群 (RSC) 的细节，该集群包含 16,000 个 NVIDIA A100 GPU。

技术细节

新的 AI 集群建立在 RSC 的经验基础之上，重点关注终端 AI 系统，以及研究人员和开发人员的体验与效率。集群采用 24,576 个 NVIDIA Tensor Core H100 GPU，并结合了高效的网络与精心设计的存储方案，可以支持比 RSC 更大、更复杂的模型，且为 GenAI 产品开发和 AI 研究的进步铺平了道路。

网络、计算、存储方面的创新

网络： Meta 采用 RDMA over Converged Ethernet (RoCE) 和 NVIDIA Quantum2 InfiniBand 两种网络架构，用于大规模模型训练的评估。
计算： 集群使用 Meta 自主设计、符合 OCP 标准的 Grand Teton 硬件平台。
存储： Meta 基于自研 Linux FUSE API 以及针对闪存优化的 ‘Tectonic’ 分布式存储解决方案，来满足大规模 AI 集群对数据 and 检查点保存的需求。同时，Meta 也与 Hammerspace 合作开发了并行 NFS 部署，以满足开发者的使用体验。

性能优化

Meta 对大型 AI 集群的性能进行了细致优化。通过调整作业调度器、路由策略以及协同改进 NVIDIA NCCL 库，大型集群的网络利用率大幅提升。此外，Meta 还针对 H100 GPU 的 FP8 特性、大规模并行化技术、检查点保存等方面进行了多项优化，并持续改进 PyTorch 框架的扩展性。

对开放创新的承诺

Meta 始终致力于 AI 软硬件领域的开放创新。Meta 是 OCP 的创始成员，积极贡献 Grand Teton 和 Open Rack 等设计；同时也是 PyTorch 框架的最大贡献者。

Meta 还致力于 AI 研究领域的开放创新，发起了 Open Innovation AI Research Community 计划，并成立了 AI Alliance。

基础设施的未来

到 2024 年底，Meta 计划部署共计 350,000 个 NVIDIA H100 GPU，提供相当于近 600,000 个 H100 的计算能力。Meta 将不断改进基础设施的各个方面，以灵活可靠地支持快速演进的新模型 and 研究需求。