推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.06169

收录解读

大语言模型仍基本停留在“训练完成后静态部署”的范式,这使它们很难在推理时随着上下文流持续适应。测试时训练本来是解决这类问题的理想方向,但过去方法往往需要重构 Transformer 架构、逐 token 更新导致吞吐量差,或者使用与自回归语言建模并不对齐的重构目标。

这篇工作的核心是 In-Place TTT:不引入新层,而是把标准 MLP 的最终投影矩阵原地转成可更新的快速权重,再用与 next-token prediction 对齐的目标函数驱动其更新。配合大分块 chunk-wise 更新和上下文并行,它既保留了注意力层处理细粒度 token 交互的能力,也把传统 TTT 的串行瓶颈显著压低。

它值得正式收录,因为它改变了 TTT 在 LLM 里的工程入口:不再要求从头训练专门架构,而是为现有开源模型提供了低侵入升级路径。这对长上下文、持续适应和部署后学习都有明显方法外溢,不只是一个局部 benchmark 改进。

它暂时不升到更高一级,原因在于当前证据仍主要集中在自回归文本模型和长上下文评测上。是否能成为更广义测试时学习的默认接口,还需要更多跨任务、跨模态和后续采用来确认。

链接