Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-03
arXiv: 2603.03205

收录解读

这篇论文关注多步工具使用智能体的安全，不再把安全视为单轮拒答问题，而是视为“何时继续执行、何时中止”的序贯决策问题。作者提出 MOSAIC 框架，把推理过程组织成 plan-check-act/refuse 循环，并把显式安全推理和拒绝动作纳入偏好强化学习。实验显示该框架能明显降低恶意任务执行、提示注入和隐私泄露，同时保留或提升良性任务表现。它的重要性在于把 agent safety 从静态内容过滤推进到显式决策结构设计。

解读视频

B 站 YouTube

链接

论文链接