智能体与自主科学
突破级
有讲解视频
收录解读
这篇论文关注多步工具使用智能体的安全,不再把安全视为单轮拒答问题,而是视为“何时继续执行、何时中止”的序贯决策问题。作者提出 MOSAIC 框架,把推理过程组织成 plan-check-act/refuse 循环,并把显式安全推理和拒绝动作纳入偏好强化学习。实验显示该框架能明显降低恶意任务执行、提示注入和隐私泄露,同时保留或提升良性任务表现。它的重要性在于把 agent safety 从静态内容过滤推进到显式决策结构设计。