训练2万亿参数大模型背后的工程奥秘

title: The Engineering Behind Training a 2 Trillion Parameter LLM url: https://www.youtube.com/watch?v=yn4GGAtZ7QE uploader: PY publish_timestamp: 2026-04-29 19:01:41 UTC+8 duration: 28:31 原视频描述(中文翻译): DeepSeek-V3 使用 2,048 块 GPU 以 560 万美元训练了一个高质量的 671B 参数 MoE 模型。Llama 3 405B 使用了 16,384 块 H100 达到了相似的基准质量。两者采用了相似的训练技术，但硬件配置截然不同。硬件带来了巨大的差异。

本视频涵盖了万亿参数大模型训练的各种技术和架构。

ZeRO 将优化器状态、梯度和权重分三个阶段分散到多个 GPU 上，这样每个 GPU 无需存储整个模型。FlashAttention 将注意力计算分解到 SRAM 块中，完全避免创建 N×N 矩阵，内存使用从 O(N²) 降至 O(N)。张量并行在 8-GPU NVLink 节点内分解矩阵乘法，如果集群规模更大，通信开销可能成为问题。流水线并行使用 1F1B 和反向切分调度将层分布到多个节点，以保持较小的流水线气泡。混合专家将总参数数与每个 token 的计算量分离，因此所有万亿级模型都使用它，包括 Switch Transformer、GPT-4 和 DeepSeek-V3。FP8 结合 tile-wise 缩放使 H100 吞吐量翻倍，在 DeepSeek-V3 训练 14.8 万亿 token 的全过程中，损失仅比 BF16 高 0.25%。Ring Attention 使用 128 块 H100 在 77 秒内为 Llama 3 405B 预填充 100 万个 token。

在使用 16,384 块 GPU 时，集群频繁出现故障。Meta 在训练 Llama 3 的 54 天内记录了 419 次意外故障，平均每三小时一次。编排器自动处理了除三个之外的所有问题。DeepSeek-V3 在 H800 上采取了不同的方法，避免使用张量并行，而将专家并行提高到 64，并使用自定义的 DualPipe 调度，将专家路由与计算重叠。

GB200 NVL72 将 72 块 GPU 置于一个 NVLink 域中，将张量并行限制提高了 9 倍。DiLoCo 在相距 1000 公里的两个数据中心以 96% 的扩展效率进行训练。硬件感知协同设计以 11 倍的 GPU 小时节省达到了 Llama 3 的质量。这些技术中的大部分在五年前还不存在。

章节： 00:00 前沿大模型训练：全栈问题 01:00 大模型内存：每个参数 16 字节，共 32 TB 02:30 Ring All-Reduce、LAMB 和临界批量大小 04:50 ZeRO 分片：优化器状态、梯度、参数 06:39 梯度检查点：选择性激活重计算 08:07 FlashAttention：SRAM 分块和 Softmax 重缩放 09:35 NVLink 节点内的张量并行和序列并行 11:57 流水线并行：1F1B、交错和反向切分 14:20 Ring Attention：支持百万 token 上下文训练 15:27 混合专家 (MoE) 和 DeepSeek-V3 的偏置路由 17:08 混合精度训练：BF16、FP8 和 FP4 19:31 Llama 3 对比 DeepSeek-V3：两种并行策略 21:37 Chinchilla 6ND 法则：为什么训练成本高达 7.5 亿美元 22:58 Llama 3 的 419 次硬件故障与热备恢复 24:27 端到端大模型训练：数据、网格、控制平面 27:05 GB200 NVL72、DiLoCo 和硬件感知协同设计

相关推荐

作者介绍

等待的菠萝

优质PDF

相关文章

目录

划词评论

📲 申请成为合伙人

相关推荐

等待的菠萝

优质PDF

相关文章

目录

划词评论