推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.14853

收录解读

问题与背景:test-time compute scaling 有效但昂贵,真实部署必须决定哪些输入值得多采样/搜索/长推理,哪些可以低成本回答。

方法与新意:论文把问题形式化为平均 compute budget 约束下最大化准确率,用 Lagrangian relaxation 分解为单样本 oracle action,再训练轻量分类器从低成本特征模仿预算分配策略。

收录意义:这篇对 inference-time scaling 很重要,因为它把“多想一点”从启发式变成可优化的预算分配问题,并给出 regret bound 与可部署的 solve-then-learn pipeline。

局限:实验集中在数学推理与少数模型,特征选择和 oracle 构造在复杂 agent workflow 中还需扩展。

链接