title: The Engineering Behind Training a 2 Trillion Parameter LLM url: https://www.youtube.com/watch?v=yn4GGAtZ7QE uploader: PY publish_timestamp: 2026-04-29 19:01:41 UTC+8 duration: 28:31 原视频描述(中文翻译): DeepSeek-V3 使用 2,048 块 GPU 以 560 万美元训练了一个高质量的 671B 参数 MoE 模型。Llama 3 405B 使用了 16,384 块 H100 达到了相似的基准质量。两者采用了相似的训练技术,但硬件配置截然不同。硬件带来了巨大的差异。
本视频涵盖了万亿参数大模型训练的各种技术和架构。
ZeRO 将优化器状态、梯度和权重分三个阶段分散到多个 GPU 上,这样每个 GPU 无需存储整个模型。FlashAttention 将注意力计算分解到 SRAM 块中,完全避免创建 N×N 矩阵,内存使用从 O(N²) 降至 O(N)。张量并行在 8-GPU NVLink 节点内分解矩阵乘法,如果集群规模更大,通信开销可能成为问题。流水线并行使用 1F1B 和反向切分调度将层分布到多个节点,以保持较小的流水线气泡。混合专家将总参数数与每个 token 的计算量分离,因此所有万亿级模型都使用它,包括 Switch Transformer、GPT-4 和 DeepSeek-V3。FP8 结合 tile-wise 缩放使 H100 吞吐量翻倍,在 DeepSeek-V3 训练 14.8 万亿 token 的全过程中,损失仅比 BF16 高 0.25%。Ring Attention 使用 128 块 H100 在 77 秒内为 Llama 3 405B 预填充 100 万个 token。
在使用 16,384 块 GPU 时,集群频繁出现故障。Meta 在训练 Llama 3 的 54 天内记录了 419 次意外故障,平均每三小时一次。编排器自动处理了除三个之外的所有问题。DeepSeek-V3 在 H800 上采取了不同的方法,避免使用张量并行,而将专家并行提高到 64,并使用自定义的 DualPipe 调度,将专家路由与计算重叠。
GB200 NVL72 将 72 块 GPU 置于一个 NVLink 域中,将张量并行限制提高了 9 倍。DiLoCo 在相距 1000 公里的两个数据中心以 96% 的扩展效率进行训练。硬件感知协同设计以 11 倍的 GPU 小时节省达到了 Llama 3 的质量。这些技术中的大部分在五年前还不存在。
章节: 00:00 前沿大模型训练:全栈问题 01:00 大模型内存:每个参数 16 字节,共 32 TB 02:30 Ring All-Reduce、LAMB 和临界批量大小 04:50 ZeRO 分片:优化器状态、梯度、参数 06:39 梯度检查点:选择性激活重计算 08:07 FlashAttention:SRAM 分块和 Softmax 重缩放 09:35 NVLink 节点内的张量并行和序列并行 11:57 流水线并行:1F1B、交错和反向切分 14:20 Ring Attention:支持百万 token 上下文训练 15:27 混合专家 (MoE) 和 DeepSeek-V3 的偏置路由 17:08 混合精度训练:BF16、FP8 和 FP4 19:31 Llama 3 对比 DeepSeek-V3:两种并行策略 21:37 Chinchilla 6ND 法则:为什么训练成本高达 7.5 亿美元 22:58 Llama 3 的 419 次硬件故障与热备恢复 24:27 端到端大模型训练:数据、网格、控制平面 27:05 GB200 NVL72、DiLoCo 和硬件感知协同设计
回复