Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

这篇论文对应用户提到的 Kimi/Linear 线索中最实质的系统突破：随着 linear attention 或状态压缩模型降低 KVCache 传输压力，prefill 与 decode 有机会跨数据中心解耦。它的重点不是一个模型分数，而是推理服务边界从单集群扩展到跨地域资源编排。

论文提出 Prefill-as-a-Service 视角，分析传统 dense attention 的 KVCache 流量如何限制 PD disaggregation，并展示下一代模型状态更小后，prefill 可以在不同网络域甚至不同数据中心执行，从而利用异构硬件、弹性资源和更廉价算力。

它值得正式收录，是因为它给出了长上下文/agentic inference 的基础设施方向：模型架构的 KV/state 形态会反过来改变服务架构、资源调度和硬件可用范围。这种 model-serving co-design 对推理成本曲线有直接系统意义。

它没有升到更高等级，是因为工作仍是系统架构论证与早期实证，依赖下一代模型的状态压缩性质和网络条件；它更像高价值系统突破，而非已经重塑整个推理基础设施的范式定稿。