TR-ICRL: Test-Time Rethinking for In-Context Reinforcement Learning

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00438

收录解读

In-Context Reinforcement Learning 试图让 LLM 直接在上下文中从外部 reward 学习，但一到真实推理阶段就会碰到一个根本问题：模型往往拿不到 ground truth，因此 reward estimation 本身变得不可靠。TR-ICRL 关注的正是这个关键短板。

论文提出 Test-Time Rethinking for In-Context Reinforcement Learning，通过从未标注 evaluation set 中检索相关实例，再让模型为这些实例生成多组候选答案，利用 majority voting 构造 pseudo-label，并据此生成 reward messages 与 formative feedback，驱动多轮迭代 refinement。最后再把这些综合上下文与原问题拼接，形成最终推理 prompt。换句话说，它把 test-time unlabeled data 变成了一种可循环利用的伪反馈源。

这篇工作值得收录，因为它把 ICRL 从单轮上下文适配推进到 test-time iterative improvement loop，形成了更完整的 in-context adaptation pattern。它与仓库持续扩展的 test-time learning、deployment-time adaptation 和 reasoning control 方向高度一致，属于可复用的方法模式。

它没有升到更高一级，是因为当前方案仍较依赖特定的 pseudo-labeling 和 majority-vote 设计，是否能成为更广 ICRL 或 TTL 的标准组件还需要更多跨任务、跨模型验证。它有效且有启发，但还不是更高层级的统一框架。

链接

论文链接