多模态基础模型
突破级
有讲解视频
收录解读
这篇论文关注一个很典型但长期被低估的问题:结构化空间设计任务并不只是图像生成,而是同时涉及几何约束、语义关系和层级组织。以建筑平面图为例,现有扩散模型和语言模型虽然能提升视觉质量,却常常在空间一致性、可控编辑和符号推理上表现不足。
作者提出 HouseMind,把房间实例离散化为专门的 token,构造统一词表来连接视觉布局和符号推理,再通过多模态对齐与指令微调,使模型既能理解平面图,也能根据文本进行生成与编辑。核心新意不在单一任务表现,而在于它把“结构化空间设计对象应如何 token 化”这个问题放到中心位置,用 tokenization 作为统一理解、生成和编辑的接口。
这项工作对仓库有价值,因为它不只是建筑平面图应用,而是展示了一条对结构化视觉-空间任务非常有潜力的路线:把离散对象 token 设计成 MLLM 的原生操作单元。这个想法对布局生成、场景编辑、CAD 交互和其他符号-几何混合任务都可能有外溢性,因此它更像一个可迁移的方法论尝试,而不只是窄领域 demo。
它没有升到更高一级,原因在于当前验证场景仍然比较集中,主要集中在 floor plan 这一任务域。要进一步上升,需要看到这种 tokenization 思路在更广空间设计或三维场景理解任务中的复用效果。现阶段更准确的定位是:生成式与多模态设计交叉处的一篇高质量突破论文。