ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

智能体与自主科学突破级暂无讲解视频

收录解读

这篇 CVPR 2025 论文把 agent 评估放到 ComfyUI 这类真实节点式 AI 工作流环境中，要求 LLM agent 自主设计协作式 AI 系统。它比普通文本任务更接近真实多工具、多节点生成工作流。

它的价值在于评测 agent 是否能理解节点图、连接工具、配置参数、调试流程并达成设计目标。这是 agentic workflow construction 的实际工程场景，不只是问答或代码片段生成。

按本库标准，它值得正式收录，因为它提供了一个真实平台上的 agent benchmark，覆盖视觉编程、多模态生成 pipeline 和 autonomous design。

局限是 ComfyUI 是特定生态，结论向通用工具编排、软件工程或工业流程迁移时需要额外验证。