Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2606.02373

核心要点

问题/背景: 搜索 agent 通常把搜索策略和大量可恢复 bookkeeping 都塞进模型 transcript，导致 RL 同时优化语义决策和状态管理。
方法/机制: Harness-1 把候选池、证据链接、验证记录、去重观察和预算感知上下文渲染外部化到 harness，模型专注于搜索、保留、验证和停止等语义决策。
结果/证据: 它值得收录，因为这是 agent 系统里 model-harness boundary 的清晰案例：通过环境侧状态管理提高 RL 训练和推理效率。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

搜索 agent 通常把搜索策略和大量可恢复 bookkeeping 都塞进模型 transcript，导致 RL 同时优化语义决策和状态管理。

Harness-1 把候选池、证据链接、验证记录、去重观察和预算感知上下文渲染外部化到 harness，模型专注于搜索、保留、验证和停止等语义决策。

它值得收录，因为这是 agent 系统里 model-harness boundary 的清晰案例：通过环境侧状态管理提高 RL 训练和推理效率。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

Harness-1 训练了一个 20B 参数的搜索代理，利用强化学习，并在一个状态化搜索框架内进行，该框架对外置了工作记忆、证据链接、验证记录以及预算意识下的上下文渲染。

英文原文

Harness-1 trains a 20B search agent with reinforcement learning inside a stateful search harness that externalizes working memory, evidence links, verification records, and budget-aware context rendering.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接