Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

多模态基础模型突破级有讲解视频

发表时间: 2026-03-12
arXiv: 2603.11640

收录解读

这篇论文关注一个很典型但长期被低估的问题：结构化空间设计任务并不只是图像生成，而是同时涉及几何约束、语义关系和层级组织。以建筑平面图为例，现有扩散模型和语言模型虽然能提升视觉质量，却常常在空间一致性、可控编辑和符号推理上表现不足。

作者提出 HouseMind，把房间实例离散化为专门的 token，构造统一词表来连接视觉布局和符号推理，再通过多模态对齐与指令微调，使模型既能理解平面图，也能根据文本进行生成与编辑。核心新意不在单一任务表现，而在于它把“结构化空间设计对象应如何 token 化”这个问题放到中心位置，用 tokenization 作为统一理解、生成和编辑的接口。

这项工作对仓库有价值，因为它不只是建筑平面图应用，而是展示了一条对结构化视觉-空间任务非常有潜力的路线：把离散对象 token 设计成 MLLM 的原生操作单元。这个想法对布局生成、场景编辑、CAD 交互和其他符号-几何混合任务都可能有外溢性，因此它更像一个可迁移的方法论尝试，而不只是窄领域 demo。

它没有升到更高一级，原因在于当前验证场景仍然比较集中，主要集中在 floor plan 这一任务域。要进一步上升，需要看到这种 tokenization 思路在更广空间设计或三维场景理解任务中的复用效果。现阶段更准确的定位是：生成式与多模态设计交叉处的一篇高质量突破论文。

解读视频

B 站 YouTube

链接

论文链接