智能体与自主科学
突破级
暂无讲解视频
收录解读
Frontier-Eng 批评现有 agent benchmark 过度依赖 pass/fail 代码题或搜索问答,不能代表真实工程里的迭代优化。真实工程价值往往来自在约束预算下不断提出、执行、评估、修改可行设计。
论文构建了 47 个工业级模拟器和 verifier 支撑的 generative optimization 任务,给 agent 连续 reward、硬约束和有限交互预算。它把 self-evolving agents 的评估从“有没有答对”转向“能否在反馈闭环中持续改进设计”。
它值得收录,是因为它提供了自进化 agent 的高价值评估接口,直接对应真实工程中的 propose-execute-evaluate loop。对 coding agent、scientific agent、hardware/design agent 都有 benchmark 迁移意义。
局限在于任务覆盖仍是一个 benchmark 子集,模型在其中的优化策略是否能迁移到开放工程项目还有待验证。