D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

安全、治理与可靠性突破级暂无讲解视频

发表时间: 2026-05-25
arXiv: 2605.25893

核心要点

问题/背景: 这篇论文处理 diffusion LLM 的新安全问题：D-LLM 通过多步 denoising 生成文本，暴露出 autoregressive LLM 没有的中间轨迹信号。
方法/机制: 作者发现最有用的失败预测信号是 safety hesitation，即中间隐藏状态反复落在轻量安全 probe 的决策边界附近。
结果/证据: D^2-Monitor 用轻量 probe 常驻监控，同时估计 hesitation；当 hesitation 超阈值时，把样本路由给更重的 monitor，从而在成本和安全性之间做动态分配。
收录价值: 收录价值在于它给新型 diffusion language model 提供了 trajectory-aware safety boundary，而不是照搬单步 AR-LLM moderation。

完整收录解读

这篇论文处理 diffusion LLM 的新安全问题：D-LLM 通过多步 denoising 生成文本，暴露出 autoregressive LLM 没有的中间轨迹信号。

作者发现最有用的失败预测信号是 safety hesitation，即中间隐藏状态反复落在轻量安全 probe 的决策边界附近。

D^2-Monitor 用轻量 probe 常驻监控，同时估计 hesitation；当 hesitation 超阈值时，把样本路由给更重的 monitor，从而在成本和安全性之间做动态分配。

收录价值在于它给新型 diffusion language model 提供了 trajectory-aware safety boundary，而不是照搬单步 AR-LLM moderation。

论文摘要

D^2-Monitor 研究了扩散 LLM 的安全监控。它发现，安全犹豫，以重复的中间隐藏状态靠近探测决策边界为衡量标准，可以预测轻量级探测器失效，并使用犹豫感知路由将困难案例升级到更重的监控器。

英文原文

D^2-Monitor studies safety monitoring for diffusion LLMs. It finds that safety hesitation, measured as repeated intermediate hidden states near a probe decision boundary, predicts lightweight probe failure, and uses hesitation-aware routing to escalate difficult cases to heavier monitors.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接