安全、治理与可靠性

Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

发表：2026-05-28 · 突破级

这篇安全论文研究 LoRA adapter 作为主流微调分发格式时的 backdoor 风险：攻击者可以用少量 poisoned examples 训练出不影响 clean accuracy、但特定触发下可靠激活的 adapter。关键发现是 backdoor 的泛化不是按结构模式，而是按 token fea...

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

发表：2026-05-28 · 突破级

这篇论文针对 open-world agents 的安全问题：当 agent 能操作文件、浏览器、终端和多环境任务时，传统聊天安全分类和单轮 moderation 明显不够。 AgentDoG 1.5 更新 agent safety taxonomy，并用 taxonomy-guided data engine...

Surviving the Unseen: Predictive Defense for Novel Multi-Turn Multimodal Attacks

发表：2026-05-20 · 突破级

TRIAD 针对多轮多模态攻击的非平稳性：恶意意图可以分散在长程对话和跨模态扰动中，单 turn guardrail 容易漏检。论文把安全验证建模为 trajectory-level survival prediction，结合结构异常、正则化 Mahalanobis 距离、拓扑轨迹加速度和 Cox/HMM...

RoboJailBench: Benchmarking Adversarial Attacks and Defenses in Embodied Robotic Agents

发表：2026-05-20 · 突破级

RoboJailBench 填补 embodied AI jailbreak 评估缺口：传统聊天模型安全基准无法覆盖机器人和自动驾驶等具身系统中的物理后果。它基于 ISO 标准、监管规则和事故记录建立 18 类安全违规后果，并构建 adversarial/benign intent contrast 数据管线...

Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

发表：2026-05-20 · 突破级

这篇论文把 foundation model guardrails 从单次输出过滤，重新表述为不确定闭环系统中的 runtime behavioral control。它借鉴机器人控制中的约束执行思想，提出 Grounded Observer 框架，并在闲聊、家庭自闭症治疗和学校行为降级三个真实部署场景中讨论...

Auditing Agent Harness Safety

发表：2026-05-14 · 突破级

HarnessAudit 指出一个常被忽略的安全问题：agent 最终输出正确并不代表执行轨迹安全，工具访问、资源分配和 agent 间信息流可能已经违规。框架审计完整执行轨迹，覆盖 boundary compliance、execution fidelity 和 system stability，并构建 8...

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

发表：2026-05-14 · 突破级

LiSA 针对 agent guardrails 的部署难题：工具调用、私有数据读取和多步工作流中的安全规则高度依赖本地政策、组织规范和用户期待。它不反复微调 base guardrail，而是把稀疏失败报告归纳成可复用 policy abstractions，用 conflict-aware local r...

State media control influences large language models

发表：2026-05-13 · 突破级

这篇 Nature 论文研究训练数据中的国家媒体控制如何影响 LLM 输出。它从跨国审计、训练数据溯源、开放权重模型额外预训练和商业模型语言审计等多个角度验证机制。核心发现是：低媒体自由国家语言中的 LLM 输出更偏向亲政府表述；中国国家协调媒体出现在训练数据中；额外用这类媒体预训练会使模型对相关政治机构和人...

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

发表：2026-05-11 · 突破级

Agent-ValueBench 指出 agent 的价值表现不能直接等同于底层 LLM 的价值表现，因为 harness、工具、环境和动作轨迹会改变行为。基准提供 394 个可执行环境、16 个领域、4335 个价值冲突任务和 28 个价值系统，并为任务提供 pole-aligned golden traj...

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

发表：2026-05-06 · 突破级

DTap 针对 agent 安全评估的核心问题：agent 会在动态、不可信、多工具环境中执行长程动作，传统静态 jailbreak 测试不足以覆盖实际风险。平台覆盖 14 个真实世界域和 50 多个模拟环境，复现 Google Workspace、PayPal、Slack 等常见系统中的工具调用、数据流和高...

TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication

发表：2026-04-23 · 突破级

这篇论文把 phishing URL triage 从静态分类问题重述成 interactive forensics task，这个 framing 很对。很多现代 phishing 页面只有在交互后才显露真正内容，所以单次 snapshot classifier 很容易失效。 TraceScope 的系统设计...

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

发表：2026-04-23 · 突破级

这篇论文解决的是当前 agent guardrails 一个很少被正面处理的盲点：多数防护都按单 session 判定，而现实攻击完全可以把 payload 分散到多次会话里，让任何单次检测都看不到完整恶意意图。它的贡献是三层同时补齐。第一层是 CSTM-Bench，把 cross-session threa...

MCP Pitfall Lab: Exposing Developer Pitfalls in MCP Tool Server Security under Multi-Vector Attacks

发表：2026-04-23 · 突破级

这篇论文的关键价值在于，它没有把 MCP 安全问题停留在‘又发现了一种 prompt attack’层面，而是把 developer pitfalls 变成了可以复现实验、可以 trace-grounded 验证、还能直接给出 hardening 成本的 protocol-aware security lab...

Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

发表：2026-04-19 · 突破级

这篇工作的价值不在于再次证明 agent 会 reward hack，而在于把 terminal / coding agent 的 exploitability 做成了可复用数据集和基准。它把 reward hacking 从零散案例提升成了能系统比较模型、环境、攻击轨迹的评测接口。 Terminal Wren...