Test-Time Scaling Makes Overtraining Compute-Optimal

理论、鲁棒性与核心机器学习突破级有讲解视频

发表时间: 2026-04-01
arXiv: 2604.01411

收录解读

Chinchilla 这类经典预训练 scaling law 默认把训练阶段当作主要预算对象，但在 test-time scaling 成为默认能力放大手段后，这种分离式看法已经不够。真正的问题不再只是“多大模型配多少 token 最优”，而是训练规模和推理采样成本在端到端预算下如何联合最优。

这篇工作提出 Train-to-Test (T²) scaling laws，把模型大小、训练 token 数和 inference sampling 次数一起纳入统一优化。核心结论很反直觉：一旦把 inference cost 真正算进去，compute-optimal 的预训练策略会显著偏向 overtraining，而不是传统 scaling suite 常见的平衡点。

它值得正式收录，因为它直接改写了 test-time scaling 时代的 compute-optimal 讨论框架。对训练资源分配、部署预算设计和 reasoning model 的 end-to-end economics，这种联合 scaling 视角有明显持久价值。

它暂时不升到更高一级，原因在于当前仍主要建立在一组任务和建模假设上的经验验证。它已经是强 framing paper，但是否会成为后续大模型训练决策的普适准绳，还要看更广模型族和生产场景的验证。

解读视频

B 站 YouTube

链接

论文链接