Affordance2Action: Task-Conditioned Scene-level Affordance Grounding for Real-Time Manipulation

Litao Liu; Yifan Han; Pengfei Yi; Wenbo Yu; Hanqing Wang; Haoran Du; Enze Yuan; Zilin Yuan; Ruiding Feng; Michael Liu; Qi Zhang; Jingjin Yu

机器人与具身智能突破级暂无讲解视频

发表时间: 2026-06-02
arXiv: 2606.04172

核心要点

问题/背景: 这篇论文针对机器人操作里的一个关键缺口：真实任务需要把自然语言指令落到场景中可交互的功能部件，而不是只识别物体类别或抓取点。
方法/机制: Affordance2Action 提出 A2A-Bench，覆盖 everyday scenes 中 single-region 和 multi-region 的 instruction-to-affordance 对应，专门处理同一物体在不同任务下 affordance 不同、同一任务在场景中有多个有效区域的问题。
结果/证据: A2A-AffordGen 是它的核心数据构建流水线：结合语言模型过滤、交互式部件分割、实例级 mask-out refinement、任务推理式指令生成和人工验证，用 agent-assisted annotation 扩展 manipulation-oriented affordance 数据。
收录价值: 收录价值在于它把 affordance grounding 从静态/物体级标注推进到场景级、任务条件化、可服务实时操作策略的 benchmark 和数据工作流，对 VLA、机器人操作策略、具身感知和 affordance-conditioned policy 都有直接复用价值。

完整收录解读

这篇论文针对机器人操作里的一个关键缺口：真实任务需要把自然语言指令落到场景中可交互的功能部件，而不是只识别物体类别或抓取点。

Affordance2Action 提出 A2A-Bench，覆盖 everyday scenes 中 single-region 和 multi-region 的 instruction-to-affordance 对应，专门处理同一物体在不同任务下 affordance 不同、同一任务在场景中有多个有效区域的问题。

A2A-AffordGen 是它的核心数据构建流水线：结合语言模型过滤、交互式部件分割、实例级 mask-out refinement、任务推理式指令生成和人工验证，用 agent-assisted annotation 扩展 manipulation-oriented affordance 数据。

收录价值在于它把 affordance grounding 从静态/物体级标注推进到场景级、任务条件化、可服务实时操作策略的 benchmark 和数据工作流，对 VLA、机器人操作策略、具身感知和 affordance-conditioned policy 都有直接复用价值。

原始摘要与中文对照

中文对照翻译

Affordance2Action 提出了 A2A-Bench，这是一个以基准为中心的学习框架，用于在日常操作场景中进行场景级、任务条件的部分功能性接地。它针对一对多和场景依赖的指令-区域对应关系，并引入了 A2A-AffordGen，这是一个代理辅助的标注流程，结合了语言模型过滤、交互式部分分割、实例级遮罩细化、任务推理指令生成和人工验证。该基准揭示了通用分割、基于 VLM 的接地和功能性蒸馏基线中的不足，同时支持实时功能性接地和功能性条件操作策略。

原始摘要

Affordance2Action presents A2A-Bench, a benchmark-centered learning framework for scene-level, task-conditioned part affordance grounding in everyday manipulation scenes. It targets one-to-many and scene-dependent instruction-region correspondences, and introduces A2A-AffordGen, an agent-assisted annotation pipeline combining language-model filtering, interactive part segmentation, instance-level mask-out refinement, task-reasoning instruction generation, and human verification. The benchmark exposes gaps in generic segmentation, VLM-based grounding, and affordance distillation baselines, while supporting real-time affordance grounding and affordance-conditioned manipulation policies.

链接

论文链接论文链接

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接