安全、治理与可靠性
突破级
有讲解视频
收录解读
TRIAD 针对多轮多模态攻击的非平稳性:恶意意图可以分散在长程对话和跨模态扰动中,单 turn guardrail 容易漏检。
论文把安全验证建模为 trajectory-level survival prediction,结合结构异常、正则化 Mahalanobis 距离、拓扑轨迹加速度和 Cox/HMM 风险反馈。
它值得正式收录,因为它给出了从静态 moderation 到连续风险预测的安全框架,适合 agentic multimodal workflows。
它没有更高,是因为理论框架很强,但需要更大规模真实攻击、延迟开销和误报率评估来确认部署价值。