智能体与自主科学
突破级
暂无讲解视频
收录解读
现在很多 web coding benchmark 默认用户需求是清晰的、信息充分的,agent 只要执行就行。但真实低代码场景里,真正的难点往往是用户本身表达含混、矛盾甚至带噪,这会让 agent 陷入一种更根本的失败模式:blind execution。
InteractWeb-Bench 的价值就在于把这个失败模式正式命名并 benchmark 化。它不是简单加点噪声,而是围绕非专家用户条件,引入 persona-driven instruction perturbations 和 Clarify / Implement / Verify / Submit 的统一交互动作空间,使 benchmark 真正覆盖 intent refinement 这一层。
这篇工作值得正式收录,因为它为 multimodal web / coding agent 提供了一个更耐用的 evaluation interface。真正可复用的不是网页题目本身,而是把 agent 从盲执行推向澄清-实现-验证闭环的评测框架。
它没有升到更高等级,因为目前任务域仍集中在 interactive website generation。尽管 failure mode 很通用,但它还不是所有 computer-use agent 的统一上位 benchmark。