智能体与自主科学
突破级
暂无讲解视频
收录解读
CreativityBench 把 agent 创造性具体化为 affordance-based tool repurposing:能否识别工具的潜在可供性,并在非标准目标中重新组合使用。
这个问题比普通工具调用更接近真实 agent 能力。真实任务经常需要把已有工具、API、文件和环境约束重新解释为可用操作,而不是按说明书执行。
它值得正式收录,因为它提供了 agent creative reasoning 的 benchmark 形态,覆盖工具理解、任务重构和 affordance 推理。
它没有更高,是因为创造性评测容易受题目设计、judge 标准和 benchmark gaming 影响,需要更多外部验证。