NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-03-06
arXiv: 2603.06492

收录解读

Transformer 预训练里，许多难拟合的细节往往要靠更多训练步数和更大模型硬吃下来，而低秩方法大多只被当作 finetuning 的 PEFT 接口。NOBLE 讨论的是另一件事：能不能把低秩分支变成预训练阶段的永久架构部件，直接提高拟合效率。

它在每个 Transformer 线性层旁边加入一个永久性的 nonlinear low-rank branch，形式是 σ(xWdown)Wup，并发现带可学习频率与相位的 cosine bottleneck（CosNet）效果最好。与 LoRA 不同，这不是冻结主干后的临时适配器，而是从头训练时就共同学习的结构增强。

这篇工作的仓库价值在于它把 low-rank augmentation 从 deployment-time adaptation 扩展到 pretraining-time efficiency，给出了一条很干净的 reusable architectural interface。跨 LLM、BERT、VQGAN 和 ViT 的一致收益，也让它不只是某个模型家族里的窄技巧。

它目前仍是 breakthrough，因为证据规模还不算终局，尚未在更大训练预算和更广优化配方下证明自己会成为标准组件；同时与 Mixup/CutMix 等正则化策略存在干扰，说明它的收益边界和适用条件还需要更系统澄清。

链接

论文链接