收录解读
这篇论文针对 PEFT/LoRA 研究里一个非常少被真正推到极限的问题:为了让大模型学会更强推理,到底需要多大规模的参数更新?传统 LoRA 已经把微调从全量权重降到低秩矩阵,但仍然至少要受制于模型维度;LoRA-XS 进一步压缩后,通常也还在成千上万参数量级。作者直接反问:如果目标是让模型更会推理,rank=1 甚至是否都太大了?
论文提出 TinyLoRA,用一个极小可训练向量通过固定投影扩展成完整权重更新,并进一步在不同模块与层之间共享这组参数,在极端设置下把全模型更新压缩到仅 1 个可训练参数。最强结果出现在 13 个 bf16 参数上:Qwen2.5-8B 在 GSM8K 上从 76% 提升到 91%。更重要的是,作者发现这种极限参数化几乎只在强化学习训练下成立;同样的小更新用于 SFT 时效果很弱,往往需要高出 100 到 1000 倍的参数量才能达到相似性能。
这项工作值得正式收录,因为它不是单纯“更省参数”的 PEFT recipe,而是给出了一个很强的机制性结论:当目标是激活已有推理能力时,RL 可能只需要极小、定向的参数扰动,而不需要像 SFT 那样去记忆完整轨迹。这对 reasoning post-training、LoRA/PEFT 设计、低成本 specialization 以及未来超大模型的 task-specific tuning 都有明显外溢价值。它实际上把“推理能力到底是在学新知识,还是在解锁已有能力”这个问题推进了一步。
它暂时还不到更高一级,原因在于当前证据仍集中在数学与推理 benchmark,且主要围绕 Qwen2.5-8B 这一路线展开。它揭示了很有冲击力的 scaling 和 RL-specific 现象,但要证明 TinyLoRA 会成为更广泛的 post-training 默认接口,还需要更多跨模型、跨任务和非 reasoning 场景验证。