State media control influences large language models

安全、治理与可靠性突破级暂无讲解视频

收录解读

这篇 Nature 论文研究训练数据中的国家媒体控制如何影响 LLM 输出。它从跨国审计、训练数据溯源、开放权重模型额外预训练和商业模型语言审计等多个角度验证机制。

核心发现是：低媒体自由国家语言中的 LLM 输出更偏向亲政府表述；中国国家协调媒体出现在训练数据中；额外用这类媒体预训练会使模型对相关政治机构和人物给出更正面回答。

它值得正式收录，因为它把 LLM 偏见/治理问题从抽象价值观争论推进到可审计的训练数据影响链条，提供了数据 provenance、跨语言审计和模型行为因果检验的组合方法。

它没有更高，是因为它主要是治理与审计证据，而不是直接提出新的训练、安全边界或防御机制；对不同模型家族和未来数据过滤策略的可操作影响还需继续观察。