收录解读
In-Context Reinforcement Learning 试图让 LLM 直接在上下文中从外部 reward 学习,但一到真实推理阶段就会碰到一个根本问题:模型往往拿不到 ground truth,因此 reward estimation 本身变得不可靠。TR-ICRL 关注的正是这个关键短板。
论文提出 Test-Time Rethinking for In-Context Reinforcement Learning,通过从未标注 evaluation set 中检索相关实例,再让模型为这些实例生成多组候选答案,利用 majority voting 构造 pseudo-label,并据此生成 reward messages 与 formative feedback,驱动多轮迭代 refinement。最后再把这些综合上下文与原问题拼接,形成最终推理 prompt。换句话说,它把 test-time unlabeled data 变成了一种可循环利用的伪反馈源。
这篇工作值得收录,因为它把 ICRL 从单轮上下文适配推进到 test-time iterative improvement loop,形成了更完整的 in-context adaptation pattern。它与仓库持续扩展的 test-time learning、deployment-time adaptation 和 reasoning control 方向高度一致,属于可复用的方法模式。
它没有升到更高一级,是因为当前方案仍较依赖特定的 pseudo-labeling 和 majority-vote 设计,是否能成为更广 ICRL 或 TTL 的标准组件还需要更多跨任务、跨模型验证。它有效且有启发,但还不是更高层级的统一框架。