核心要点
- 问题/背景
- 这篇论文针对机器人操作里的一个关键缺口:真实任务需要把自然语言指令落到场景中可交互的功能部件,而不是只识别物体类别或抓取点。
- 方法/机制
- Affordance2Action 提出 A2A-Bench,覆盖 everyday scenes 中 single-region 和 multi-region 的 instruction-to-affordance 对应,专门处理同一物体在不同任务下 affordance 不同、同一任务在场景中有多个有效区域的问题。
- 结果/证据
- A2A-AffordGen 是它的核心数据构建流水线:结合语言模型过滤、交互式部件分割、实例级 mask-out refinement、任务推理式指令生成和人工验证,用 agent-assisted annotation 扩展 manipulation-oriented affordance 数据。
- 收录价值
- 收录价值在于它把 affordance grounding 从静态/物体级标注推进到场景级、任务条件化、可服务实时操作策略的 benchmark 和数据工作流,对 VLA、机器人操作策略、具身感知和 affordance-conditioned policy 都有直接复用价值。
原始摘要与中文对照
中文对照翻译
Affordance2Action 提出了 A2A-Bench,这是一个以基准为中心的学习框架,用于在日常操作场景中进行场景级、任务条件的部分功能性接地。它针对一对多和场景依赖的指令-区域对应关系,并引入了 A2A-AffordGen,这是一个代理辅助的标注流程,结合了语言模型过滤、交互式部分分割、实例级遮罩细化、任务推理指令生成和人工验证。该基准揭示了通用分割、基于 VLM 的接地和功能性蒸馏基线中的不足,同时支持实时功能性接地和功能性条件操作策略。
原始摘要
Affordance2Action presents A2A-Bench, a benchmark-centered learning framework for scene-level, task-conditioned part affordance grounding in everyday manipulation scenes. It targets one-to-many and scene-dependent instruction-region correspondences, and introduces A2A-AffordGen, an agent-assisted annotation pipeline combining language-model filtering, interactive part segmentation, instance-level mask-out refinement, task-reasoning instruction generation, and human verification. The benchmark exposes gaps in generic segmentation, VLM-based grounding, and affordance distillation baselines, while supporting real-time affordance grounding and affordance-conditioned manipulation policies.