Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-22
arXiv: 2604.20915

收录解读

这篇论文延续的是 test-time training / parameter-as-memory 这条线里最难的那个问题：如何在不保留全部上下文缓存的情况下，把历史真正“吸收”进参数，同时不破坏原模型的因果行为。过去很多方法的失败点在于只在 token projection 层面做拟合，结果既容易过拟合，也学不到上下文的真实因果作用。

Absorber LLM 的关键改动是把目标从表面 token 对齐，改成 causal synchronization。也就是让吸收过历史的无上下文模型，在未来生成时尽量与原始有上下文模型的内部行为保持同步。这个 framing 很重要，因为它把 long-context retention 变成了更接近机制层的一致性问题，而不是简单蒸馏。

它值得正式收录，因为这类工作直接关系到 long-context、streaming inference 和 deployment-time adaptation 的交叉地带。相比一般的 context compression trick，它提供了一个更可复用的 test-time training 视角，对 parameter-as-memory 路线有明确推进。

它没有升到更高等级，是因为目前仍主要是在特定 benchmark 上证明其优于 prior baselines，距离成为长上下文部署的默认范式还有较长 adoption 路要走。

链接

论文链接