核心要点
- 问题/背景
- SpatialClaw 关注的不是单个感知工具,而是 VLM agent 调用工具的 action interface 是否限制空间推理能力。
- 方法/机制
- 它采用 code-as-action interface:在持久 Python kernel 中逐步写代码、调用感知和几何 primitives、读取中间结果再修正计划。
- 结果/证据
- 这种接口比一次性代码执行或固定 tool-call schema 更灵活,能组合 3D/4D 空间分析操作并适配不同任务。
- 收录价值
- 它值得收录,因为它把 agentic spatial reasoning 的关键从模型参数转向执行接口设计,对机器人、视觉理解和空间智能 agent 都有可复用价值。
原始摘要与中文对照
中文对照翻译
SpatialClaw:重新思考智能体空间推理的动作接口 空间推理,即确定物体在3D空间中的位置、它们之间的关系以及它们的运动方式的能力,仍然是视觉语言模型(VLMs)面临的一个基本挑战。工具增强型智能体试图通过为VLMs配备专业感知模块来解决这一问题,然而,它们的有效性受限于调用这些工具的动作接口。在这项工作中,我们研究了这种接口的设计如何塑造智能体进行开放式空间推理的能力。现有的空间智能体要么采用单次代码执行,这种方式在观察到任何中间结果之前就确定了完整的分析策略,要么依赖于结构化的工具调用接口,而这种接口通常提供的功能较少
原始摘要
Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent’s capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less