MARS: Enabling Autoregressive Models Multi-Token Generation

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-08
arXiv: 2604.07023

收录解读

标准自回归语言模型哪怕在连续 token 已经高度可预测时，仍然一次只生成一个 token，这使得高吞吐推理长期受限在非常保守的 decoding interface 上。多 token generation 因此一直重要，但很多方案需要附加 draft model、额外 heads，或者直接改底层架构。

MARS 的关键价值在于，它用 continued training 直接把 instruction-tuned AR 模型变成可做 multi-token generation 的模型，不改架构、不加参数，也不引入第二个草稿模型。除了训练目标本身，工作还给出了 block-level KV caching 和 confidence thresholding，让 serving 侧可以在保持基线精度的同时把吞吐提升到 1.5 到 1.7 倍，并按负载动态调节速度。

它值得正式收录，因为这不是又一个 narrow decoding trick，而是对 autoregressive serving interface 的低摩擦重写：保留原模型调用方式，却打开多 token generation 和实时 latency-quality knob。这对 inference systems、deployment-time optimization 和后续 AR model serving pattern 都有明显外溢。

它暂时不升到更高一级，原因在于当前收益仍主要表现为部署与吞吐改进，尚未证明会像 speculative decoding 或更深层接口重写那样全面改变 autoregressive model 的默认训练与部署范式。

链接

论文链接