Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

理论、鲁棒性与核心机器学习突破级暂无讲解视频

收录解读

这篇论文研究后训练中越来越重要的 on-policy distillation，为“为什么有时蒸馏有效、有时失败”提供机制解释。它指出 OPD 需要学生和教师思维模式兼容，同时教师必须提供学生没见过的新能力。

论文在 token 级别分析成功 OPD 的概率质量如何集中到共享高概率 token 集合，并用 weak-to-strong reverse distillation 验证同族教师可能对学生没有新信息。这个解释比简单看分数差异更有诊断价值。

按本库标准，它属于核心方法/后训练机制澄清，提供了 OPD 的失败条件和修复 recipe，对 distillation、RL 后训练和小模型能力迁移都有复用价值。

局限是结论仍需要在更多模型家族、长程推理任务和真实生产蒸馏流水线中验证；它不是一个通用蒸馏定理。