Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

大模型生成长度一直很重要，但以前大多停留在 sequence-level heuristic：多给一点 prompt 约束、或者粗粒度调 budget。LenVM 把这个问题正式改写成 token-level value estimation，让模型在每个 token 上显式预测剩余生成长度。

这篇工作的可复用点在于 supervision 设计很干净：每个 token 赋常数负奖励，把长度建模变成无标注、稠密、可扩展的 value pretraining。这样得到的不只是 exact length matching，而是一套可在推理时连续调节成本与性能的长度控制信号。

对本库来说，这种 length-as-value 的接口比单纯 budget decoding 更耐用。它属于 reasoning/inference control 方向里很少见的基础原语，既能做预算约束，也能解释生成过程中哪些 token 在把 reasoning 推向更长或更短。

它没有升到更高一级，因为当前最强证据仍聚焦在长度控制与预算约束本身。它是不是会变成更广泛 RL 或 decoding control 的标准 value interface，还需要后续验证。