BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-01-30
arXiv: 2603.25747

收录解读

随着多模态 agents 开始在网页、移动端和具身环境中执行真实任务，安全评测不能再停留在低保真 API sandbox 或单一攻击脚本上。当前一个核心缺口是：缺少能够跨环境、跨交互形态衡量 situated agents 行为风险的 benchmark。

BeSafe-Bench 的主要贡献是把 situated-agent safety 做成了更接近真实部署的评测对象。它覆盖 Web、Mobile、Embodied VLM 和 Embodied VLA 四类 functional environments，并把九类 safety-critical risk 注入任务指令空间，再结合规则检查和 LLM-as-a-judge 去评估真实环境后果。

这使它具备了比单栈 red-teaming 更强的外溢性。对本仓库来说，它不是普通 benchmark 叠加，而是 agent safety 从单轮内容安全转向跨环境行为安全的一块更耐久的评测基座，能够和 computer-use、robotics、mobile agents 以及多代理系统的后续工作形成稳定接口。

它目前仍是 benchmark 主导而非完整防御框架，而且生态影响还需要更多复用与复现来验证。因此给到 breakthrough 合理，但暂不升到更高等级。

链接

论文链接