Meta 发布 LLaMa 3 训练基础设施:两大万卡 H100 集群
Meta 于昨晚发布了用于训练 LLaMa3 模型的基础设施:包含两个 24576 张 H100 GPU 的超大集群。
原文链接为:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
简单评价如下:
- 规模最大: 这是目前公开资料可查的规模最大的单算力集群,不仅卡的数量超过之前评论过的字节的万卡集群(A100/A800 为主),GPU 更是全部采用了 H100。理论算力超过字节万卡集群至少 20 倍以上;
- 开源承诺: 这篇文章反复提到 Meta 对于开放式 AI 的承诺与贡献,意味着 LLaMa-3 超过 95% 概率依然是开源(开源 checkpoint,即模型权重)的;
- 多模态可能: 该集群具备超高的吞吐率,不仅能够同时训练上千个模型,更是能充分利用 Meta 在文字、图像、视频等方面的数据优势:90% 概率以上 LLaMa-3 是多模态的;
- 蓄势待发: LLaMa-3 已经箭在弦上了。
上面都是手工输入内容,以下都是 AI 生成内容。
更多信息,请参考 Gemini 1.0 Ultra 根据英文原文生成的中文摘要(未作任何修改):
Meta 开发 GenAI 基础设施
作者: Kevin Lee, Adi Gangidi, Mathew Oldham
Meta 宣布推出两个由 24k GPU 组成的集群,体现了 Meta 对 AI 未来的巨大投入。文章分享了硬件、网络、存储、设计、性能和软件方面的细节,以实现 AI 应用的高吞吐量和可靠性。新集群目前已用于 Llama 3 的训练。
Meta 致力于开源计算和开放创新。这些集群构建在 Grand Teton、OpenRack 和 PyTorch 之上,将继续推动整个行业的开放创新。
这一举措是 Meta 宏伟基础设施路线图的一个重要里程碑。到 2024 年底,Meta 的目标是继续扩大基础设施建设规模,其中包括 350,000 个 NVIDIA H100 GPU,并提供相当于近 600,000 个 H100 的计算能力。
Meta 的大型 AI 集群
Meta 的长期愿景是打造开放且负责任的人工通用智能 (AGI)。在实现 AGI 愿景的过程中,Meta 也在努力扩展集群以支持这一目标。
Meta 在构建 AI 基础设施方面有着悠久的历史。早在 2022 年,Meta 就公布了首个 AI 超级集群 (RSC) 的细节,该集群包含 16,000 个 NVIDIA A100 GPU。
技术细节
新的 AI 集群建立在 RSC 的经验基础之上,重点关注终端 AI 系统,以及研究人员和开发人员的体验与效率。集群采用 24,576 个 NVIDIA Tensor Core H100 GPU,并结合了高效的网络与精心设计的存储方案,可以支持比 RSC 更大、更复杂的模型,且为 GenAI 产品开发和 AI 研究的进步铺平了道路。
网络、计算、存储方面的创新
- 网络: Meta 采用 RDMA over Converged Ethernet (RoCE) 和 NVIDIA Quantum2 InfiniBand 两种网络架构,用于大规模模型训练的评估。
- 计算: 集群使用 Meta 自主设计、符合 OCP 标准的 Grand Teton 硬件平台。
- 存储: Meta 基于自研 Linux FUSE API 以及针对闪存优化的 ‘Tectonic’ 分布式存储解决方案,来满足大规模 AI 集群对数据 and 检查点保存的需求。同时,Meta 也与 Hammerspace 合作开发了并行 NFS 部署,以满足开发者的使用体验。
性能优化
Meta 对大型 AI 集群的性能进行了细致优化。通过调整作业调度器、路由策略以及协同改进 NVIDIA NCCL 库,大型集群的网络利用率大幅提升。此外,Meta 还针对 H100 GPU 的 FP8 特性、大规模并行化技术、检查点保存等方面进行了多项优化,并持续改进 PyTorch 框架的扩展性。
对开放创新的承诺
Meta 始终致力于 AI 软硬件领域的开放创新。Meta 是 OCP 的创始成员,积极贡献 Grand Teton 和 Open Rack 等设计;同时也是 PyTorch 框架的最大贡献者。
Meta 还致力于 AI 研究领域的开放创新,发起了 Open Innovation AI Research Community 计划,并成立了 AI Alliance。
基础设施的未来
到 2024 年底,Meta 计划部署共计 350,000 个 NVIDIA H100 GPU,提供相当于近 600,000 个 H100 的计算能力。Meta 将不断改进基础设施的各个方面,以灵活可靠地支持快速演进的新模型 and 研究需求。