推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
代码生成后训练通常依赖执行反馈、验证器、教师模型或 RL 流水线,导致成本高、实现复杂,而且很难把方法推广到不同模型规模与训练设定。真正有价值的问题是:模型能否只用自己的原始输出就系统性变强。
这篇工作给出的答案是可以。它提出极简自蒸馏 SSD:直接采样模型自己的未经验证输出,再用标准 SFT 回灌训练。论文进一步把收益解释为对 token 分布的上下文依赖式重塑:在需要精确锁定的地方压掉长尾干扰项,在需要探索分叉的地方保留头部多样性,从而缓解代码生成里的精度-探索冲突。
它值得正式收录,因为它用极低复杂度的 post-training recipe 换来了显著的代码生成提升,并且不是单纯报告分数,而是给出了关于解码分布几何和为什么 decode-only 调参不够的清晰解释。这对代码模型和更广义的后训练设计都很有参考价值。
它暂时不升到更高一级,原因在于当前证据仍主要集中在代码生成这一高结构化场景,而且小模型上出现了跨域性能代价,说明方法的普适边界还没有完全厘清。