推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-02-13
arXiv
2602.15902

收录解读

Doc-to-LoRA 把长上下文信息从 token-level context 转成 transient LoRA adapter,提供了一种参数记忆接口:文档不再每次都作为 KV/context 被反复读入,而是由 hypernetwork 在一次前向中编译成目标 LLM 的 LoRA 权重。

它瞄准的是 context distillation 的实际瓶颈。传统 per-prompt distillation 需要昂贵训练,RAG/长上下文每次查询又要承担上下文和 KV cache 成本;D2L 试图把“读文档”和“后续问答”解耦。

实验显示 D2L 可以在 needle-in-a-haystack 和真实 QA 任务中把上下文信息写入 adapter,在超过目标模型原生 context window 的长度上保持较强表现,并降低峰值内存与更新延迟。仓库还提供参考实现、demo 和预训练模型下载。

它值得正式收录,因为它把 agent memory / personalized context / frequent knowledge update 变成一种可组合的参数化能力注入接口,和 MSA 这类隐式注意力记忆形成互补:一个扩展可注意的内生记忆容量,一个把文档编译进临时参数。

链接