推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
大模型生成长度一直很重要,但以前大多停留在 sequence-level heuristic:多给一点 prompt 约束、或者粗粒度调 budget。LenVM 把这个问题正式改写成 token-level value estimation,让模型在每个 token 上显式预测剩余生成长度。
这篇工作的可复用点在于 supervision 设计很干净:每个 token 赋常数负奖励,把长度建模变成无标注、稠密、可扩展的 value pretraining。这样得到的不只是 exact length matching,而是一套可在推理时连续调节成本与性能的长度控制信号。
对本库来说,这种 length-as-value 的接口比单纯 budget decoding 更耐用。它属于 reasoning/inference control 方向里很少见的基础原语,既能做预算约束,也能解释生成过程中哪些 token 在把 reasoning 推向更长或更短。
它没有升到更高一级,因为当前最强证据仍聚焦在长度控制与预算约束本身。它是不是会变成更广泛 RL 或 decoding control 的标准 value interface,还需要后续验证。