MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

AI 硬件与加速器突破级暂无讲解视频

发表时间: 2026-04-06
arXiv: 2604.05091

收录解读

这篇论文处理的是超大模型训练在显存维度上的系统瓶颈。常规大模型训练以 GPU 显存为中心，参数、优化器状态和 autograd metadata 长驻设备；即使有 ZeRO/offload，100B+ 级别全精度训练通常仍依赖多 GPU 和复杂分布式系统。

MegaTrain 反过来把训练系统设计成 memory-centric 架构：参数和优化器状态主要存放在 CPU host memory，GPU 被当成瞬时计算引擎；每层训练时按需把参数流入 GPU、把梯度流出。为缓解 CPU-GPU 带宽瓶颈，系统使用双缓冲流水线、多 CUDA stream 重叠 prefetch/compute/offload，并用 stateless layer templates 替代持久 autograd graph。

它值得收录，因为它不是普通 offload recipe，而是明确改变了超大模型训练的资源边界：在单 H200 + 1.5TB host memory 上训练到 120B 参数，并在 14B 训练上达到 DeepSpeed ZeRO-3 CPU offloading 的 1.84 倍吞吐；还展示了单 GH200 训练 7B、512k context 的可能性。对低资源大模型训练、长上下文训练和 memory hierarchy co-design 都有实用参考价值。

它不是更高一级，因为该路线用 host memory 换取可达模型规模，吞吐仍受 PCIe/NVLink-C2C、CPU 内存带宽、layer scheduling 和模型结构影响；它更像高价值系统设计，而不是改变主流大规模训练集群范式。

链接

论文链接