FlashSampling: Fast and Memory-Efficient Exact Sampling

科学发现旗舰工作突破级暂无讲解视频

发表时间: 2026-03-16
arXiv: 2603.15854

收录解读

这篇论文处理的是大词表解码里一个看似简单、但在系统上长期低效的步骤：从语言模型输出分布中采样下一个 token。传统实现通常在 LM head matmul 之后把完整 logits 张量写回 HBM，再单独做 softmax / sampling 或 Gumbel 采样，这会引入额外的显存流量和 kernel 开销，尤其在推理解码阶段很不划算。

FlashSampling 的核心思路是把 exact categorical sampling 直接融合进 LM head matmul，不再显式 materialize 完整 logits。它按 tile 在片上计算 logits，注入 Gumbel 噪声，只保留每个 tile 的候选最大值，最后再做一个很小的跨 tile 归约。关键点在于这仍然是精确采样，不是近似或裁剪式替代；论文还给出在线和张量并行场景下的 grouped exact variants。

它值得收录，因为这是一个很干净、可复用的推理系统 primitive。和很多只在特定框架里做工程技巧堆叠的优化不同，这篇工作直接改写了 large-vocab decoding 里 sampling 这一步的实现边界：把一个带宽受限的后处理步骤压缩进 matmul epilogue。对高吞吐推理、vLLM 类 serving 系统和未来 decoder kernel 设计都有明显外溢价值。

它没有升到更高一级，原因在于它仍然属于推理 kernel/primitive 层的强系统论文，而不是会改变模型训练或架构范式的工作。它的价值在于 exact、通用、工程收益明确，但影响面仍主要集中在解码系统栈。

链接

论文链接