收录解读
Test-time learning 在语言 agent 上越来越重要,但现有做法大多把 adaptation policy 视作人工设计的固定规则,比如如何根据前几轮轨迹更新策略、保留什么反馈、怎样进行下一轮修正。这样做能工作,但它默认人类已经知道最优 adaptation rule 是什么。
Meta-TTL 的关键点是把 adaptation policy 本身变成学习对象。作者把 TTL 写成 bi-level optimization:内层执行标准 TTL 过程,观察候选 adaptation policy 是否真的能帮助 agent 在后续 episode 中纠错;外层则在任务分布上用 evolutionary search 不断改进 adaptation policy。这样,post-deployment improvement 不再依赖固定启发式,而变成了可学习的策略搜索问题。
这篇工作值得收录,因为它把 test-time learning / post-deployment adaptation 从‘写一个更新规则’推进到‘学习更新规则’。这对语言 agent、web navigation、interactive environments 和更广的 deployment-time learning 都有很明确的模式价值,也与仓库关注的 self-improvement 与 test-time adaptation 主线高度一致。
它暂时不更高,是因为验证仍主要在 Jericho 与 WebArena-Lite 这类环境上,路线虽对,但距离更广泛 agent setting 的 durable default 还需要更多复现与扩展。它是强方法论文,但还没到改写整条 TTL 研究图景的程度。