推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文延续的是 test-time training / parameter-as-memory 这条线里最难的那个问题:如何在不保留全部上下文缓存的情况下,把历史真正“吸收”进参数,同时不破坏原模型的因果行为。过去很多方法的失败点在于只在 token projection 层面做拟合,结果既容易过拟合,也学不到上下文的真实因果作用。
Absorber LLM 的关键改动是把目标从表面 token 对齐,改成 causal synchronization。也就是让吸收过历史的无上下文模型,在未来生成时尽量与原始有上下文模型的内部行为保持同步。这个 framing 很重要,因为它把 long-context retention 变成了更接近机制层的一致性问题,而不是简单蒸馏。
它值得正式收录,因为这类工作直接关系到 long-context、streaming inference 和 deployment-time adaptation 的交叉地带。相比一般的 context compression trick,它提供了一个更可复用的 test-time training 视角,对 parameter-as-memory 路线有明确推进。
它没有升到更高等级,是因为目前仍主要是在特定 benchmark 上证明其优于 prior baselines,距离成为长上下文部署的默认范式还有较长 adoption 路要走。