推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
问题与背景:test-time compute scaling 有效但昂贵,真实部署必须决定哪些输入值得多采样/搜索/长推理,哪些可以低成本回答。
方法与新意:论文把问题形式化为平均 compute budget 约束下最大化准确率,用 Lagrangian relaxation 分解为单样本 oracle action,再训练轻量分类器从低成本特征模仿预算分配策略。
收录意义:这篇对 inference-time scaling 很重要,因为它把“多想一点”从启发式变成可优化的预算分配问题,并给出 regret bound 与可部署的 solve-then-learn pipeline。
局限:实验集中在数学推理与少数模型,特征选择和 oracle 构造在复杂 agent workflow 中还需扩展。