推理、记忆与推理时控制
颠覆级
暂无讲解视频
收录解读
这篇论文针对自回归语言模型的核心效率瓶颈:标准 LLM 每一步只生成一个离散 token,因此长文本生成、推理和服务吞吐都被 token-by-token 的串行链条限制。单纯加速 kernel 或投机解码仍然是在离散 token 序列上做补丁,无法改变每个生成步的语义带宽。
CALM 的核心新意是把自回归目标从 next-token prediction 改成 next-vector prediction。它先用高保真 autoencoder 将连续 K 个 token 压缩成一个连续向量,再让语言模型预测下一个连续语义向量,并通过 likelihood-free 的训练、评估和采样框架处理连续域生成。这样模型一次生成的是一个语义块,而不是一个离散 token。
它值得收录为 disruptive,因为它明确提出了一个不同于传统离散 token LLM 的生成尺度轴:提升单步语义带宽。即使当前实验还处在 K=4 等相对早期设置,CALM 仍为 multi-token generation、latent language modeling、continuous sequence modeling 和高吞吐推理提供了一个可复用的架构方向。
它不是 paradigm 级别,因为还没有在前沿规模、复杂工具调用、长链推理和真实服务系统中证明连续向量语言模型可以稳定替代离散 token 模型;autoencoder 误差、采样控制、可解释性和与现有 tokenizer / serving 生态的兼容性也仍是开放问题。