智能体与自主科学
突破级
暂无讲解视频
收录解读
ClawMark 真正补的是 persistent coworker agent 这条评测缺口。它不再假设 agent 在一个静态 session 里做完事,而是把任务拉长到多天、多轮、带外部环境变化的状态空间里去测,这比普通 web / tool benchmark 更接近真实办公协作。
它值得收的另一个原因是评测设计扎实:五个 stateful services、100 个任务、13 个专业场景、1,537 个 deterministic Python checkers,而且 scoring 不依赖 LLM-as-judge。这个 rule-based verification 很重要,因为多天、多模态环境下如果还靠主观 judge,噪声会很大。
最有信息量的结果不是某个模型分数高,而是 strict Task Success 仍然很低,且性能在第一次 exogenous update 后显著下滑。这把 persistent state tracking 和 changing-world adaptation 直接钉成了 agent 研究里的核心开放问题。
它没有更高,是因为当前 benchmark 仍聚焦 coworker-style office workflows;虽然方向很强,但还没覆盖更广的 real-world agent operating environments。