理论、鲁棒性与核心机器学习
突破级
有讲解视频
收录解读
Chinchilla 这类经典预训练 scaling law 默认把训练阶段当作主要预算对象,但在 test-time scaling 成为默认能力放大手段后,这种分离式看法已经不够。真正的问题不再只是“多大模型配多少 token 最优”,而是训练规模和推理采样成本在端到端预算下如何联合最优。
这篇工作提出 Train-to-Test (T²) scaling laws,把模型大小、训练 token 数和 inference sampling 次数一起纳入统一优化。核心结论很反直觉:一旦把 inference cost 真正算进去,compute-optimal 的预训练策略会显著偏向 overtraining,而不是传统 scaling suite 常见的平衡点。
它值得正式收录,因为它直接改写了 test-time scaling 时代的 compute-optimal 讨论框架。对训练资源分配、部署预算设计和 reasoning model 的 end-to-end economics,这种联合 scaling 视角有明显持久价值。
它暂时不升到更高一级,原因在于当前仍主要建立在一组任务和建模假设上的经验验证。它已经是强 framing paper,但是否会成为后续大模型训练决策的普适准绳,还要看更广模型族和生产场景的验证。