安全、治理与可靠性
突破级
暂无讲解视频
收录解读
这篇论文把 foundation model guardrails 从单次输出过滤,重新表述为不确定闭环系统中的 runtime behavioral control。
它借鉴机器人控制中的约束执行思想,提出 Grounded Observer 框架,并在闲聊、家庭自闭症治疗和学校行为降级三个真实部署场景中讨论轨迹级干预。
它值得正式收录,因为 agent safety 需要从 output moderation 走向 trajectory-level safety boundary,这正是工具型/交互型 AI 的核心安全边界。
它没有更高,是因为目前更偏框架和部署经验,形式化保证、可复现实验和跨模型标准化评测还不充分。