可解释性与机制分析 突破级 暂无讲解视频
发表时间
2026-03-31
arXiv
2604.00209

收录解读

很多 LLM 的 privacy failure 看起来像是模型根本不理解什么信息不该在什么情境里泄露,但这篇论文切换了问题 framing:也许模型内部已经表示了 contextual privacy norms,只是这些表示没有稳定地转化为行为控制。这把问题从“模型不知道”改成了“表示与行为脱节”。

论文基于 contextual integrity 理论,把隐私规范拆成 information type、recipient 和 transmission principle 三个维度,并系统探测这些维度是否在 activation space 中以可分离、可组合的方向存在。作者进一步提出 CI-parametric steering,沿这些维度做结构化干预,而不是用单一整体向量去硬推模型。结果显示,模型内部确实编码了这套结构,但行为层仍会泄露,由此把 privacy failure 归因到 control gap 而非纯缺失认知。

这篇工作值得收录,因为它把 privacy alignment 从表层 prompt hardening 推进到表示层与 steering 层的结构化研究。对 mechanistic interpretability、concept steering 和 safety control,这不仅是一个隐私小任务,而是一个把社会规范映射到 latent structure 的清晰案例,具有明显方法外溢。

它没有升到更高一级,是因为当前工作仍集中在 contextual privacy 这一特定规范族,外推到更一般的 social norms、policy control 和 production safety stack 还需要更多证据。它是强的表示与控制论文,但还未形成更广的对齐蓝图。

链接