理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
这篇论文讨论的是后训练流水线里一个非常关键但此前经常被黑盒化处理的阶段:mid-training。作者想回答的不只是“mid-training 有没有用”,而是它与后续 RL 到底如何分工、数据配比应该在哪里发挥作用,以及它为什么会成为复杂推理 RL 的前置条件。
论文通过跨模型家族、跨架构和跨参数规模的系统实验,给出了一组很有分量的结论。最重要的一个结论是:直接在基座模型上做 RL 基本无法得到复杂推理能力,而经过高质量 mid-training 后,RL 才开始有效。机制分析进一步显示,mid-training 会对超过九成的权重进行密集重构,而 RL 只对少量前部权重做稀疏更新;更反直觉的是,RL 不管从 base 还是 mid-trained 模型开始,更新模式都非常相似,但只有后者处在可被 RL 有效优化的位置。
这篇工作值得正式收录,因为它不是单纯报告一个更好的训练 recipe,而是对 mid-training 与 RL 的关系给出了很清楚的经验和机制解释。对后训练设计、推理模型训练、数据配比、长上下文保留以及 training pipeline design 都有很强的指导意义,符合仓库对强理论/机制澄清论文的收录标准。
它目前适合定为 breakthrough,而不是更高一级。原因是论文虽然把现象讲清楚了,但还没有把这些规律提升为更一般的理论框架,也主要聚焦于作者实验范围内的模型和数据设置,尚未完全成为社区共识。