RoboJailBench: Benchmarking Adversarial Attacks and Defenses in Embodied Robotic Agents

安全、治理与可靠性突破级暂无讲解视频

收录解读

RoboJailBench 填补 embodied AI jailbreak 评估缺口：传统聊天模型安全基准无法覆盖机器人和自动驾驶等具身系统中的物理后果。

它基于 ISO 标准、监管规则和事故记录建立 18 类安全违规后果，并构建 adversarial/benign intent contrast 数据管线，同时评估攻击成功率和良性指令执行能力。

它值得正式收录，因为它把 VLM/VLA 具身系统的 jailbreak 风险标准化，形成安全 taxonomy、数据生成流程和攻防评估接口。

它没有更高，是因为 benchmark 需要持续吸纳真实机器人场景、更多攻击和更多防御策略才能成为长期标准。