Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Yaxuan Li; Yuxin Zuo; Bingxiang He; Jinqian Zhang; Chaojun Xiao; Cheng Qian; Tianyu Yu; Huan-ang Gao; Wenkai Yang; Zhiyuan Liu; Ning Ding

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-14
arXiv: 2604.13016

收录解读

这篇论文系统研究 on-policy distillation 的成功条件和失败机制。OPD 已经成为大模型 post-training 的重要技术，但过去更多依赖经验 recipe，缺少对 teacher-student 动态的可解释规律。

作者提出两个关键条件：学生和老师需要兼容的 thinking patterns，老师还必须提供学生训练中没有见过的新能力。通过 weak-to-strong reverse distillation 和 token-level probing，论文把成功 OPD 描述为 student-visited states 上高概率 token 的逐步对齐。

它值得收录，是因为它提供了 OPD 的机制层说明，而不是单个蒸馏技巧。对于选择 teacher、构建 SFT/OPD 数据、判断蒸馏是否有新增能力，它给出了可复用的诊断框架。

局限在于这些规律仍主要来自特定模型族和任务集合；跨架构、跨模态和 agent 训练中的 OPD 机制还需要进一步验证。

链接

论文链接