Accelerating Speculative Decoding with Block Diffusion Draft Trees

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-14
arXiv: 2604.12989

收录解读

问题与背景：speculative decoding 的核心瓶颈是 drafter 能否提出足够长、足够可能被 target 接受的候选。DFlash 已证明 block diffusion drafter 很强，但单轮只验证一条轨迹，限制了可接受长度。

方法与新意：DDTree 从 block diffusion drafter 的逐位置分布直接构造 draft tree，用 best-first heap 在固定节点预算下选择最可能匹配 target 的分支，并用 ancestor-only attention mask 一次 target forward 完成验证。

收录意义：这篇是推理系统方向的可复用 primitive，把 diffusion drafter 与 tree verification 结合起来，服务于长输出和高吞吐 LLM inference。它对本库关注的 agentic long-output inference efficiency 有直接价值。

局限：收益依赖高质量 diffusion drafter 和 target/draft 分布匹配；实际系统价值还要看不同 batch、KV cache、服务端调度和硬件实现下的端到端吞吐。

链接

论文链接