对应论文

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

视频简介

搜索 agent 通常把搜索策略和大量可恢复 bookkeeping 都塞进模型 transcript,导致 RL 同时优化语义决策和状态管理。 Harness-1 把候选池、证据链接、验证记录、去重观察和预算感知上下文渲染外部化到 harness,模型专注于搜索、保留、验证和停止等语义决策。 它值得收录,因为这是 agent 系统里 model-harness boundary 的清晰案例:通过环境侧状态管理提高 RL 训练和推理效率。 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。

外部视频链接

论文链接