Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-01
arXiv: 2605.00553

收录解读

这篇工作的关键不是再做一个 attack generator，而是把 LLM red-teaming 里的“效果强”和“覆盖广”同时作为训练稳定性问题来处理。它针对 GFlowNet 在 noisy reward 场景下最致命的 mode collapse 做了结构性修改。

最有复用价值的是三件事：去掉不稳定的 partition-function 估计、用 pairwise comparison 维持分布学习、再用 fluency stabilizer 避免模型退化成胡言乱语攻击。这些都不是一次性 trick，而是可以迁移到更广 adversarial trajectory generation 里的训练原语。

它值得正式收录，因为 agent/LLM safety 现在缺的不是更多人工 jailbreak case，而是能持续探索高质量、多样攻击空间的生成方法。Stable-GFlowNet 明显比单纯 search / evolutionary red-teaming 更像耐用方法。

它没有更高，是因为当前证据仍主要落在 red-teaming 这一层，还没有证明它能成为更广安全探索或 agent stress-testing 的通用分布学习接口。

链接

论文链接