智能体与自主科学
突破级
暂无讲解视频
收录解读
RewardHarness 的关键思想是把 reward modeling 从训练新权重转成 agentic context evolution:系统维护并迭代一组工具和技能,用它们构造偏好判断链。
它用少量偏好 demonstrations 让 Orchestrator 选择工具、分析成功失败并改进工具/技能库,从而让 frozen Sub-Agent 更接近人类偏好。
它值得正式收录,因为这提供了一种 self-evolving post-training pattern:能力提升不一定来自参数更新,也可以来自可审计的工具与技能库演化。
它没有更高,是因为当前场景集中在图像编辑 reward;能否扩展到更广泛 agent 任务、复杂偏好和长期稳定库管理仍需验证。