推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-03-06
arXiv
2603.06492

收录解读

Transformer 预训练里,许多难拟合的细节往往要靠更多训练步数和更大模型硬吃下来,而低秩方法大多只被当作 finetuning 的 PEFT 接口。NOBLE 讨论的是另一件事:能不能把低秩分支变成预训练阶段的永久架构部件,直接提高拟合效率。

它在每个 Transformer 线性层旁边加入一个永久性的 nonlinear low-rank branch,形式是 σ(xWdown)Wup,并发现带可学习频率与相位的 cosine bottleneck(CosNet)效果最好。与 LoRA 不同,这不是冻结主干后的临时适配器,而是从头训练时就共同学习的结构增强。

这篇工作的仓库价值在于它把 low-rank augmentation 从 deployment-time adaptation 扩展到 pretraining-time efficiency,给出了一条很干净的 reusable architectural interface。跨 LLM、BERT、VQGAN 和 ViT 的一致收益,也让它不只是某个模型家族里的窄技巧。

它目前仍是 breakthrough,因为证据规模还不算终局,尚未在更大训练预算和更广优化配方下证明自己会成为标准组件;同时与 Mixup/CutMix 等正则化策略存在干扰,说明它的收益边界和适用条件还需要更系统澄清。

链接