伯克利等如何让轻量AI硬刚闭源巨头？外置工作台助20B模型拿下73%检索率 | DAST Papers

对应论文

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

视频简介

搜索 agent 通常把搜索策略和大量可恢复 bookkeeping 都塞进模型 transcript，导致 RL 同时优化语义决策和状态管理。 Harness-1 把候选池、证据链接、验证记录、去重观察和预算感知上下文渲染外部化到 harness，模型专注于搜索、保留、验证和停止等语义决策。它值得收录，因为这是 agent 系统里 model-harness boundary 的清晰案例：通过环境侧状态管理提高 RL 训练和推理效率。按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

外部视频链接

论文链接

论文详情页