Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

智能体与自主科学突破级暂无讲解视频

收录解读

Frontier-Eng 批评现有 agent benchmark 过度依赖 pass/fail 代码题或搜索问答，不能代表真实工程里的迭代优化。真实工程价值往往来自在约束预算下不断提出、执行、评估、修改可行设计。

论文构建了 47 个工业级模拟器和 verifier 支撑的 generative optimization 任务，给 agent 连续 reward、硬约束和有限交互预算。它把 self-evolving agents 的评估从“有没有答对”转向“能否在反馈闭环中持续改进设计”。

它值得收录，是因为它提供了自进化 agent 的高价值评估接口，直接对应真实工程中的 propose-execute-evaluate loop。对 coding agent、scientific agent、hardware/design agent 都有 benchmark 迁移意义。

局限在于任务覆盖仍是一个 benchmark 子集，模型在其中的优化策略是否能迁移到开放工程项目还有待验证。