Surviving the Unseen: Predictive Defense for Novel Multi-Turn Multimodal Attacks

发表:2026-05-20 · 突破级

TRIAD 针对多轮多模态攻击的非平稳性:恶意意图可以分散在长程对话和跨模态扰动中,单 turn guardrail 容易漏检。 论文把安全验证建模为 trajectory-level survival prediction,结合结构异常、正则化 Mahalanobis 距离、拓扑轨迹加速度和 Cox/HMM...

Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

发表:2026-05-20 · 突破级

这篇论文把 foundation model guardrails 从单次输出过滤,重新表述为不确定闭环系统中的 runtime behavioral control。 它借鉴机器人控制中的约束执行思想,提出 Grounded Observer 框架,并在闲聊、家庭自闭症治疗和学校行为降级三个真实部署场景中讨论...

Auditing Agent Harness Safety

发表:2026-05-14 · 突破级

HarnessAudit 指出一个常被忽略的安全问题:agent 最终输出正确并不代表执行轨迹安全,工具访问、资源分配和 agent 间信息流可能已经违规。 框架审计完整执行轨迹,覆盖 boundary compliance、execution fidelity 和 system stability,并构建 8...

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

发表:2026-05-14 · 突破级

LiSA 针对 agent guardrails 的部署难题:工具调用、私有数据读取和多步工作流中的安全规则高度依赖本地政策、组织规范和用户期待。 它不反复微调 base guardrail,而是把稀疏失败报告归纳成可复用 policy abstractions,用 conflict-aware local r...

State media control influences large language models

发表:2026-05-13 · 突破级

这篇 Nature 论文研究训练数据中的国家媒体控制如何影响 LLM 输出。它从跨国审计、训练数据溯源、开放权重模型额外预训练和商业模型语言审计等多个角度验证机制。 核心发现是:低媒体自由国家语言中的 LLM 输出更偏向亲政府表述;中国国家协调媒体出现在训练数据中;额外用这类媒体预训练会使模型对相关政治机构和人...

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

发表:2026-05-11 · 突破级

Agent-ValueBench 指出 agent 的价值表现不能直接等同于底层 LLM 的价值表现,因为 harness、工具、环境和动作轨迹会改变行为。 基准提供 394 个可执行环境、16 个领域、4335 个价值冲突任务和 28 个价值系统,并为任务提供 pole-aligned golden traj...

TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication

发表:2026-04-23 · 突破级

这篇论文把 phishing URL triage 从静态分类问题重述成 interactive forensics task,这个 framing 很对。很多现代 phishing 页面只有在交互后才显露真正内容,所以单次 snapshot classifier 很容易失效。 TraceScope 的系统设计...

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

发表:2026-04-23 · 突破级

这篇论文解决的是当前 agent guardrails 一个很少被正面处理的盲点:多数防护都按单 session 判定,而现实攻击完全可以把 payload 分散到多次会话里,让任何单次检测都看不到完整恶意意图。 它的贡献是三层同时补齐。第一层是 CSTM-Bench,把 cross-session threa...