推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-14
arXiv
2604.12989

收录解读

问题与背景:speculative decoding 的核心瓶颈是 drafter 能否提出足够长、足够可能被 target 接受的候选。DFlash 已证明 block diffusion drafter 很强,但单轮只验证一条轨迹,限制了可接受长度。

方法与新意:DDTree 从 block diffusion drafter 的逐位置分布直接构造 draft tree,用 best-first heap 在固定节点预算下选择最可能匹配 target 的分支,并用 ancestor-only attention mask 一次 target forward 完成验证。

收录意义:这篇是推理系统方向的可复用 primitive,把 diffusion drafter 与 tree verification 结合起来,服务于长输出和高吞吐 LLM inference。它对本库关注的 agentic long-output inference efficiency 有直接价值。

局限:收益依赖高质量 diffusion drafter 和 target/draft 分布匹配;实际系统价值还要看不同 batch、KV cache、服务端调度和硬件实现下的端到端吞吐。

链接