CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

智能体与自主科学突破级暂无讲解视频

收录解读

CreativityBench 把 agent 创造性具体化为 affordance-based tool repurposing：能否识别工具的潜在可供性，并在非标准目标中重新组合使用。

这个问题比普通工具调用更接近真实 agent 能力。真实任务经常需要把已有工具、API、文件和环境约束重新解释为可用操作，而不是按说明书执行。

它值得正式收录，因为它提供了 agent creative reasoning 的 benchmark 形态，覆盖工具理解、任务重构和 affordance 推理。

它没有更高，是因为创造性评测容易受题目设计、judge 标准和 benchmark gaming 影响，需要更多外部验证。