理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-04-15
arXiv
2604.13016

收录解读

这篇论文研究后训练中越来越重要的 on-policy distillation,为“为什么有时蒸馏有效、有时失败”提供机制解释。它指出 OPD 需要学生和教师思维模式兼容,同时教师必须提供学生没见过的新能力。

论文在 token 级别分析成功 OPD 的概率质量如何集中到共享高概率 token 集合,并用 weak-to-strong reverse distillation 验证同族教师可能对学生没有新信息。这个解释比简单看分数差异更有诊断价值。

按本库标准,它属于核心方法/后训练机制澄清,提供了 OPD 的失败条件和修复 recipe,对 distillation、RL 后训练和小模型能力迁移都有复用价值。

局限是结论仍需要在更多模型家族、长程推理任务和真实生产蒸馏流水线中验证;它不是一个通用蒸馏定理。

链接