Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs

多模态基础模型突破级有讲解视频

发表时间: 2026-03-13
arXiv: 2603.12597

收录解读

问题与背景：高质量、知识密集且图文严格对齐的视觉设计数据非常稀缺，尤其是面向数学、科学和计算机领域的示意图、结构图和关系图。互联网虽然有大量图像和文本，但真正适合训练视觉推理模型的 diagram-caption 对并不多。Feynman 要解决的是如何用 agent pipeline 低成本、大规模地生成语义一致且布局多样的专业图示数据。

方法/新意：作者构建了一个 diagramming agent：先枚举领域知识要素与“ideas”，再进行代码规划，把这些 ideas 翻译成 Penrose 可渲染的 declarative programs，并在渲染反馈回路中不断修正视觉设计。Penrose 的优化式渲染既保留语义结构，又引入布局多样性，最终得到 10 万级 diagram-caption pairs，并进一步整理出 Diagramma 这一面向视觉推理的评测集。

意义/放在仓库中的位置：这篇工作适合放在 multimodal / agentic data generation / visual reasoning 主线。它的价值不只是一个画图系统，而是给出了一条相当清晰的 agentic synthetic-data workflow：知识枚举、程序规划、可执行渲染、反馈修正，再反过来生成 benchmark。对 diagram reasoning、结构化视觉设计、科学图示数据构建都很有工程和研究外溢性。

局限/为何不再升一级：它的优势主要仍集中在 diagram domain，而不是通用视觉生成或更广的多模态 agent 系统。虽然工作流本身值得借鉴，但还需要更多跨域复用证据来证明它是更大范围的数据生成蓝图，因此先定为突破性。

解读视频

B 站 YouTube

链接

论文链接