推理、记忆与推理时控制 突破级 有讲解视频
发表时间
2026-04-09
arXiv
2604.08302

收录解读

diffusion language models 一直有并行生成潜力,但真正把 decoding parallelism 开大时,模型很容易因为错误累积而迅速掉质,因此很多实现只能保守地换一点吞吐,换不来真正激进的推理加速。问题不在于 dLLM 没有并行性,而在于现有 decoding 形式太脆弱。

DMax 的推进在于把 dLLM 的解码从简单的 mask-to-token 过渡,改写成从 mask embedding 到 token embedding 的渐进式自修正过程。围绕这个接口,论文给出 On-Policy Uniform Training 去统一 masked / uniform dLLM 的训练分布,再配合 Soft Parallel Decoding,让中间状态能在 embedding space 中持续纠偏,从而支持更激进的并行解码而不明显牺牲质量。

它值得正式收录,因为这不是单个模型上的 speed hack,而是在 diffusion language model 上提出了更耐用的 decoding interface。对 dLLM 的训练组织、推理吞吐和未来生成接口设计,这种把并行生成和自修正结合起来的方式有可复用的方法价值。

它暂时不升到更高一级,原因在于当前证据仍主要集中在 dLLM 这条生成范式内部,虽然对该方向很重要,但还没有证明会外溢成更普遍的生成推理标准。

解读视频

链接