推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文系统研究 on-policy distillation 的成功条件和失败机制。OPD 已经成为大模型 post-training 的重要技术,但过去更多依赖经验 recipe,缺少对 teacher-student 动态的可解释规律。
作者提出两个关键条件:学生和老师需要兼容的 thinking patterns,老师还必须提供学生训练中没有见过的新能力。通过 weak-to-strong reverse distillation 和 token-level probing,论文把成功 OPD 描述为 student-visited states 上高概率 token 的逐步对齐。
它值得收录,是因为它提供了 OPD 的机制层说明,而不是单个蒸馏技巧。对于选择 teacher、构建 SFT/OPD 数据、判断蒸馏是否有新增能力,它给出了可复用的诊断框架。
局限在于这些规律仍主要来自特定模型族和任务集合;跨架构、跨模态和 agent 训练中的 OPD 机制还需要进一步验证。