Doc-to-LoRA: Learning to Instantly Internalize Contexts

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

Doc-to-LoRA 把长上下文信息从 token-level context 转成 transient LoRA adapter，提供了一种参数记忆接口：文档不再每次都作为 KV/context 被反复读入，而是由 hypernetwork 在一次前向中编译成目标 LLM 的 LoRA 权重。

它瞄准的是 context distillation 的实际瓶颈。传统 per-prompt distillation 需要昂贵训练，RAG/长上下文每次查询又要承担上下文和 KV cache 成本；D2L 试图把“读文档”和“后续问答”解耦。

实验显示 D2L 可以在 needle-in-a-haystack 和真实 QA 任务中把上下文信息写入 adapter，在超过目标模型原生 context window 的长度上保持较强表现，并降低峰值内存与更新延迟。仓库还提供参考实现、demo 和预训练模型下载。

它值得正式收录，因为它把 agent memory / personalized context / frequent knowledge update 变成一种可组合的参数化能力注入接口，和 MSA 这类隐式注意力记忆形成互补：一个扩展可注意的内生记忆容量，一个把文档编译进临时参数。