DMax: Aggressive Parallel Decoding for dLLMs

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-04-09
arXiv: 2604.08302

收录解读

diffusion language models 一直有并行生成潜力，但真正把 decoding parallelism 开大时，模型很容易因为错误累积而迅速掉质，因此很多实现只能保守地换一点吞吐，换不来真正激进的推理加速。问题不在于 dLLM 没有并行性，而在于现有 decoding 形式太脆弱。

DMax 的推进在于把 dLLM 的解码从简单的 mask-to-token 过渡，改写成从 mask embedding 到 token embedding 的渐进式自修正过程。围绕这个接口，论文给出 On-Policy Uniform Training 去统一 masked / uniform dLLM 的训练分布，再配合 Soft Parallel Decoding，让中间状态能在 embedding space 中持续纠偏，从而支持更激进的并行解码而不明显牺牲质量。

它值得正式收录，因为这不是单个模型上的 speed hack，而是在 diffusion language model 上提出了更耐用的 decoding interface。对 dLLM 的训练组织、推理吞吐和未来生成接口设计，这种把并行生成和自修正结合起来的方式有可复用的方法价值。

它暂时不升到更高一级，原因在于当前证据仍主要集中在 dLLM 这条生成范式内部，虽然对该方向很重要，但还没有证明会外溢成更普遍的生成推理标准。

解读视频

B 站 YouTube

链接

论文链接