收录解读
长程记忆一直是通用模型能力扩展的硬瓶颈。传统 full attention 路线在上下文长度升到百万级后,计算与 KV cache 成本都会迅速失控;而 RAG、外部 memory agent 或固定状态模型虽然能绕开部分长度限制,却往往带来精度下降、延迟膨胀、记忆不可编辑,或缺乏端到端优化的问题。MSA 正面瞄准的是‘如何让模型本体具备 lifetime-scale intrinsic memory’。
论文提出 Memory Sparse Attention,把 long-context 扩展做成一条完整的 end-to-end memory model 路线。核心部件包括可训练的 scalable sparse attention、面向超长文档的 document-wise RoPE、配合 KV cache compression 与 Memory Parallel 的超长推理方案,以及支持跨离散记忆段多跳推理的 Memory Interleaving。论文报告从 16K 扩展到 100M tokens 时性能衰减小于 9%,并在长上下文 benchmark 上超过前沿 LLM、RAG 系统和 memory agents。
这篇工作值得正式收录,因为它不只是某个 sparse attention trick,而是在模型层重新组织了 memory capacity 与 reasoning 的关系。与仅靠外部检索或 agent glue 的方法不同,MSA 给出了一条‘端到端可训练的内生超长记忆模型’路线;而且它已经不止停留在 paper demo,EverMind 后续的 EverMemOS、EverMemBench 和相关工程项目明显都在围绕它展开,说明它开始具备路线牵引力。
它没有升到 disruptive,是因为现阶段的强证据仍主要来自作者生态和官方评测。虽然项目群落地信号很强,但是否会成为社区更广泛采用的默认 memory interface,还要看独立复现、外部系统整合,以及更多非作者团队是否围绕这条路线构建长期工作。