收录解读
问题与背景:高质量、知识密集且图文严格对齐的视觉设计数据非常稀缺,尤其是面向数学、科学和计算机领域的示意图、结构图和关系图。互联网虽然有大量图像和文本,但真正适合训练视觉推理模型的 diagram-caption 对并不多。Feynman 要解决的是如何用 agent pipeline 低成本、大规模地生成语义一致且布局多样的专业图示数据。
方法/新意:作者构建了一个 diagramming agent:先枚举领域知识要素与“ideas”,再进行代码规划,把这些 ideas 翻译成 Penrose 可渲染的 declarative programs,并在渲染反馈回路中不断修正视觉设计。Penrose 的优化式渲染既保留语义结构,又引入布局多样性,最终得到 10 万级 diagram-caption pairs,并进一步整理出 Diagramma 这一面向视觉推理的评测集。
意义/放在仓库中的位置:这篇工作适合放在 multimodal / agentic data generation / visual reasoning 主线。它的价值不只是一个画图系统,而是给出了一条相当清晰的 agentic synthetic-data workflow:知识枚举、程序规划、可执行渲染、反馈修正,再反过来生成 benchmark。对 diagram reasoning、结构化视觉设计、科学图示数据构建都很有工程和研究外溢性。
局限/为何不再升一级:它的优势主要仍集中在 diagram domain,而不是通用视觉生成或更广的多模态 agent 系统。虽然工作流本身值得借鉴,但还需要更多跨域复用证据来证明它是更大范围的数据生成蓝图,因此先定为突破性。