Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00830

收录解读

Test-time learning 在语言 agent 上越来越重要，但现有做法大多把 adaptation policy 视作人工设计的固定规则，比如如何根据前几轮轨迹更新策略、保留什么反馈、怎样进行下一轮修正。这样做能工作，但它默认人类已经知道最优 adaptation rule 是什么。

Meta-TTL 的关键点是把 adaptation policy 本身变成学习对象。作者把 TTL 写成 bi-level optimization：内层执行标准 TTL 过程，观察候选 adaptation policy 是否真的能帮助 agent 在后续 episode 中纠错；外层则在任务分布上用 evolutionary search 不断改进 adaptation policy。这样，post-deployment improvement 不再依赖固定启发式，而变成了可学习的策略搜索问题。

这篇工作值得收录，因为它把 test-time learning / post-deployment adaptation 从‘写一个更新规则’推进到‘学习更新规则’。这对语言 agent、web navigation、interactive environments 和更广的 deployment-time learning 都有很明确的模式价值，也与仓库关注的 self-improvement 与 test-time adaptation 主线高度一致。

它暂时不更高，是因为验证仍主要在 Jericho 与 WebArena-Lite 这类环境上，路线虽对，但距离更广泛 agent setting 的 durable default 还需要更多复现与扩展。它是强方法论文，但还没到改写整条 TTL 研究图景的程度。

链接

论文链接