POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

科学发现旗舰工作突破级有讲解视频

发表时间: 2026-03-05
arXiv: 2603.05500

收录解读

大语言模型预训练仍受制于优化器的显存和稳定性开销。原始 POET 通过正交等价变换保持频谱结构，理论上有稳定性优势，但实现代价高，难以在真正的大模型预训练里扩展。POET-X 处理的就是这个落地缺口：如何把谱保持式训练从概念方法变成可扩展的预训练算法。

这篇工作的核心新意不在于再提出一个全新训练目标，而在于把 POET 的每个关键计算步骤重新实现成更可扩展的内存与并行路径，并围绕参数高效重参数化、稀疏化和 CUDA 级实现做系统优化。结果是显存占用相对原始 POET 降低 70% 以上，并能在单张 H100 上预训练十亿级参数模型，而同设定下 AdamW 会直接耗尽显存。

它在仓库里更接近高价值系统与训练基础设施论文：一方面它保留了 POET 的训练稳定性叙事，另一方面把这种方法推进到了真正可操作的 LLM 预训练规模。对优化器设计、低显存预训练和大模型训练系统都有明显外溢价值，不是单纯的工程小修小补。

它暂时还不到更高等级，因为证据主要来自单一方法家族和预训练系统对比，社区是否会把 POET-X 作为通用默认训练路线还没有定论；同时它目前仍是 arXiv 阶段，长期采用度与跨模型族泛化还需要后续验证。

解读视频

B 站 YouTube

链接

论文链接