推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
大语言模型仍基本停留在“训练完成后静态部署”的范式,这使它们很难在推理时随着上下文流持续适应。测试时训练本来是解决这类问题的理想方向,但过去方法往往需要重构 Transformer 架构、逐 token 更新导致吞吐量差,或者使用与自回归语言建模并不对齐的重构目标。
这篇工作的核心是 In-Place TTT:不引入新层,而是把标准 MLP 的最终投影矩阵原地转成可更新的快速权重,再用与 next-token prediction 对齐的目标函数驱动其更新。配合大分块 chunk-wise 更新和上下文并行,它既保留了注意力层处理细粒度 token 交互的能力,也把传统 TTT 的串行瓶颈显著压低。
它值得正式收录,因为它改变了 TTT 在 LLM 里的工程入口:不再要求从头训练专门架构,而是为现有开源模型提供了低侵入升级路径。这对长上下文、持续适应和部署后学习都有明显方法外溢,不只是一个局部 benchmark 改进。
它暂时不升到更高一级,原因在于当前证据仍主要集中在自回归文本模型和长上下文评测上。是否能成为更广义测试时学习的默认接口,还需要更多跨任务、跨模态和后续采用来确认。