Learning to Reason in 13 Parameters

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-02-04
arXiv: 2602.04118

收录解读

这篇论文针对 PEFT/LoRA 研究里一个非常少被真正推到极限的问题：为了让大模型学会更强推理，到底需要多大规模的参数更新？传统 LoRA 已经把微调从全量权重降到低秩矩阵，但仍然至少要受制于模型维度；LoRA-XS 进一步压缩后，通常也还在成千上万参数量级。作者直接反问：如果目标是让模型更会推理，rank=1 甚至是否都太大了？

论文提出 TinyLoRA，用一个极小可训练向量通过固定投影扩展成完整权重更新，并进一步在不同模块与层之间共享这组参数，在极端设置下把全模型更新压缩到仅 1 个可训练参数。最强结果出现在 13 个 bf16 参数上：Qwen2.5-8B 在 GSM8K 上从 76% 提升到 91%。更重要的是，作者发现这种极限参数化几乎只在强化学习训练下成立；同样的小更新用于 SFT 时效果很弱，往往需要高出 100 到 1000 倍的参数量才能达到相似性能。

这项工作值得正式收录，因为它不是单纯“更省参数”的 PEFT recipe，而是给出了一个很强的机制性结论：当目标是激活已有推理能力时，RL 可能只需要极小、定向的参数扰动，而不需要像 SFT 那样去记忆完整轨迹。这对 reasoning post-training、LoRA/PEFT 设计、低成本 specialization 以及未来超大模型的 task-specific tuning 都有明显外溢价值。它实际上把“推理能力到底是在学新知识，还是在解锁已有能力”这个问题推进了一步。

它暂时还不到更高一级，原因在于当前证据仍集中在数学与推理 benchmark，且主要围绕 Qwen2.5-8B 这一路线展开。它揭示了很有冲击力的 scaling 和 RL-specific 现象，但要证明 TinyLoRA 会成为更广泛的 post-training 默认接口，还需要更多跨模型、跨任务和非 reasoning 场景验证。

链接

论文链接