Many-Tier Instruction Hierarchy in LLM Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-10
arXiv: 2604.09443

收录解读

这篇论文针对 agent 系统中越来越常见的多来源指令冲突问题，指出传统 instruction hierarchy 通常只假设少数固定权限层级，难以覆盖真实 agent 中系统消息、用户消息、工具输出、组织角色、API 信任边界等更细粒度的权限关系。作者把问题扩展为可有任意多权限层级的 Many-Tier Instruction Hierarchy，并以此定义新的安全与可靠性评测目标。

核心贡献是 ManyIH 范式和 ManyIH-Bench。基准包含 853 个 agentic 任务，覆盖编码与指令遵循两类场景，最多要求模型处理 12 个冲突权限层级，并把约束设计、人工验证和自动检查结合起来，使模型必须显式识别并服从最高权限约束，而不是依赖少数硬编码 role label。

它值得收录，是因为它把 agent 安全从“system > user”这种粗粒度模板推进到可扩展权限解析问题，给工具型 agent、组织内 agent、代码 agent 和多组件 agent 的指令治理提供了可复用评测框架。当前前沿模型在层级数扩张时明显失效，这说明问题不是单纯增加推理 token 可以解决，而需要面向权限结构的训练和接口设计。

局限在于论文主要提出评测和范式，尚未给出成熟的训练方法或协议标准；ManyIH 的权限值也被预先给定，真实系统中仍需要解决权限来源认证、动态信任更新和跨工具传播。因此它定位为突破性 agent 评测/安全框架，而不是更高一级的系统范式转移。

链接

论文链接项目代码代码