收录解读
标准自回归语言模型哪怕在连续 token 已经高度可预测时,仍然一次只生成一个 token,这使得高吞吐推理长期受限在非常保守的 decoding interface 上。多 token generation 因此一直重要,但很多方案需要附加 draft model、额外 heads,或者直接改底层架构。
MARS 的关键价值在于,它用 continued training 直接把 instruction-tuned AR 模型变成可做 multi-token generation 的模型,不改架构、不加参数,也不引入第二个草稿模型。除了训练目标本身,工作还给出了 block-level KV caching 和 confidence thresholding,让 serving 侧可以在保持基线精度的同时把吞吐提升到 1.5 到 1.7 倍,并按负载动态调节速度。
它值得正式收录,因为这不是又一个 narrow decoding trick,而是对 autoregressive serving interface 的低摩擦重写:保留原模型调用方式,却打开多 token generation 和实时 latency-quality knob。这对 inference systems、deployment-time optimization 和后续 AR model serving pattern 都有明显外溢。
它暂时不升到更高一级,原因在于当前收益仍主要表现为部署与吞吐改进,尚未证明会像 speculative decoding 或更深层接口重写那样全面改变 autoregressive model 的默认训练与部署范式。