安全、治理与可靠性 突破级 暂无讲解视频
发表时间
2026-05-25
arXiv
2605.25893

核心要点

问题/背景
这篇论文处理 diffusion LLM 的新安全问题:D-LLM 通过多步 denoising 生成文本,暴露出 autoregressive LLM 没有的中间轨迹信号。
方法/机制
作者发现最有用的失败预测信号是 safety hesitation,即中间隐藏状态反复落在轻量安全 probe 的决策边界附近。
结果/证据
D^2-Monitor 用轻量 probe 常驻监控,同时估计 hesitation;当 hesitation 超阈值时,把样本路由给更重的 monitor,从而在成本和安全性之间做动态分配。
收录价值
收录价值在于它给新型 diffusion language model 提供了 trajectory-aware safety boundary,而不是照搬单步 AR-LLM moderation。
完整收录解读

这篇论文处理 diffusion LLM 的新安全问题:D-LLM 通过多步 denoising 生成文本,暴露出 autoregressive LLM 没有的中间轨迹信号。

作者发现最有用的失败预测信号是 safety hesitation,即中间隐藏状态反复落在轻量安全 probe 的决策边界附近。

D^2-Monitor 用轻量 probe 常驻监控,同时估计 hesitation;当 hesitation 超阈值时,把样本路由给更重的 monitor,从而在成本和安全性之间做动态分配。

收录价值在于它给新型 diffusion language model 提供了 trajectory-aware safety boundary,而不是照搬单步 AR-LLM moderation。

论文摘要

D^2-Monitor 研究了扩散 LLM 的安全监控。它发现,安全犹豫,以重复的中间隐藏状态靠近探测决策边界为衡量标准,可以预测轻量级探测器失效,并使用犹豫感知路由将困难案例升级到更重的监控器。

英文原文

D^2-Monitor studies safety monitoring for diffusion LLMs. It finds that safety hesitation, measured as repeated intermediate hidden states near a probe decision boundary, predicts lightweight probe failure, and uses hesitation-aware routing to escalate difficult cases to heavier monitors.

相关论文

链接