Introspective Diffusion Language Models

生成模型与世界模型突破级暂无讲解视频

发表时间: 2026-04-13
arXiv: 2604.11035

收录解读

这篇论文切入 diffusion language model 的核心短板：扩散式并行生成虽然有吞吐潜力，但文本质量长期落后于自回归模型。作者把差距归因于 introspective consistency，也就是模型是否会接受自己此前生成的 token；AR 训练由于 causal masking 和 logit shifting 天然强化这种一致性，而 DLM 往往缺少这一机制。

论文提出 Introspective Diffusion Language Model（I-DLM），用 introspective strided decoding 让模型在同一次前向传播中一边生成新 token，一边验证先前 token，从而把 AR 式自我一致性注入 diffusion-style parallel decoding。它还给出 introspective acceptance rate 作为诊断指标，把“为什么 DLM 文本质量差”从经验现象变成可测机制。

它值得收录，是因为它不是单纯改采样步数，而是提出了 diffusion language model 与 autoregressive language model 之间的结构性差异解释，并给出统一并行性与一致性的训练/解码接口。对于非 AR 语言模型、并行解码和高吞吐生成系统，这是一条可复用的方法线。

局限在于 I-DLM 仍需在更大模型、更长文本和真实 serving 负载下验证；目前它主要证明了 DLM 质量机制和一套新范式的可行性，还没有成为替代 AR 的成熟部署路径。

链接

论文链接