推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文对应用户提到的 Kimi/Linear 线索中最实质的系统突破:随着 linear attention 或状态压缩模型降低 KVCache 传输压力,prefill 与 decode 有机会跨数据中心解耦。它的重点不是一个模型分数,而是推理服务边界从单集群扩展到跨地域资源编排。
论文提出 Prefill-as-a-Service 视角,分析传统 dense attention 的 KVCache 流量如何限制 PD disaggregation,并展示下一代模型状态更小后,prefill 可以在不同网络域甚至不同数据中心执行,从而利用异构硬件、弹性资源和更廉价算力。
它值得正式收录,是因为它给出了长上下文/agentic inference 的基础设施方向:模型架构的 KV/state 形态会反过来改变服务架构、资源调度和硬件可用范围。这种 model-serving co-design 对推理成本曲线有直接系统意义。
它没有升到更高等级,是因为工作仍是系统架构论证与早期实证,依赖下一代模型的状态压缩性质和网络条件;它更像高价值系统突破,而非已经重塑整个推理基础设施的范式定稿。