智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-10
arXiv
2604.09443

收录解读

这篇论文针对 agent 系统中越来越常见的多来源指令冲突问题,指出传统 instruction hierarchy 通常只假设少数固定权限层级,难以覆盖真实 agent 中系统消息、用户消息、工具输出、组织角色、API 信任边界等更细粒度的权限关系。作者把问题扩展为可有任意多权限层级的 Many-Tier Instruction Hierarchy,并以此定义新的安全与可靠性评测目标。

核心贡献是 ManyIH 范式和 ManyIH-Bench。基准包含 853 个 agentic 任务,覆盖编码与指令遵循两类场景,最多要求模型处理 12 个冲突权限层级,并把约束设计、人工验证和自动检查结合起来,使模型必须显式识别并服从最高权限约束,而不是依赖少数硬编码 role label。

它值得收录,是因为它把 agent 安全从“system > user”这种粗粒度模板推进到可扩展权限解析问题,给工具型 agent、组织内 agent、代码 agent 和多组件 agent 的指令治理提供了可复用评测框架。当前前沿模型在层级数扩张时明显失效,这说明问题不是单纯增加推理 token 可以解决,而需要面向权限结构的训练和接口设计。

局限在于论文主要提出评测和范式,尚未给出成熟的训练方法或协议标准;ManyIH 的权限值也被预先给定,真实系统中仍需要解决权限来源认证、动态信任更新和跨工具传播。因此它定位为突破性 agent 评测/安全框架,而不是更高一级的系统范式转移。

链接