LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-04-13
arXiv: 2604.11748

收录解读

问题与背景：连续扩散在图像等模态上很强，但在语言建模中长期落后于离散扩散和自回归模型，核心难点来自稀疏 token 空间、评价方式不统一和训练设计不足。

方法与新意：LangFlow 把 embedding-space diffusion language models 与 Flow Matching 通过 Bregman divergence 连接起来，并提出 ODE-based NLL bound、information-uniform noise schedule 和适合连续语言扩散的 self-conditioning。

收录意义：这篇对生成建模主线有价值，因为它不是单纯刷榜，而是补上连续语言扩散的评估与训练设计缺口，给出“连续 diffusion 也能接近离散 DLM”的明确证据。

局限：结果仍主要在中等规模语言建模与 transfer benchmark 上，尚未证明可替代大规模自回归 LLM，也缺少大规模 post-training、tool use 或长上下文行为验证。

链接

论文链接