Embarrassingly Simple Self-Distillation Improves Code Generation

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

代码生成后训练通常依赖执行反馈、验证器、教师模型或 RL 流水线，导致成本高、实现复杂，而且很难把方法推广到不同模型规模与训练设定。真正有价值的问题是：模型能否只用自己的原始输出就系统性变强。

这篇工作给出的答案是可以。它提出极简自蒸馏 SSD：直接采样模型自己的未经验证输出，再用标准 SFT 回灌训练。论文进一步把收益解释为对 token 分布的上下文依赖式重塑：在需要精确锁定的地方压掉长尾干扰项，在需要探索分叉的地方保留头部多样性，从而缓解代码生成里的精度-探索冲突。

它值得正式收录，因为它用极低复杂度的 post-training recipe 换来了显著的代码生成提升，并且不是单纯报告分数，而是给出了关于解码分布几何和为什么 decode-only 调参不够的清晰解释。这对代码模型和更广义的后训练设计都很有参考价值。

它暂时不升到更高一级，原因在于当前证据仍主要集中在代码生成这一高结构化场景，而且小模型上出现了跨域性能代价，说明方法的普适边界还没有完全厘清。