智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇工作的关键不是再做一个 attack generator,而是把 LLM red-teaming 里的“效果强”和“覆盖广”同时作为训练稳定性问题来处理。它针对 GFlowNet 在 noisy reward 场景下最致命的 mode collapse 做了结构性修改。
最有复用价值的是三件事:去掉不稳定的 partition-function 估计、用 pairwise comparison 维持分布学习、再用 fluency stabilizer 避免模型退化成胡言乱语攻击。这些都不是一次性 trick,而是可以迁移到更广 adversarial trajectory generation 里的训练原语。
它值得正式收录,因为 agent/LLM safety 现在缺的不是更多人工 jailbreak case,而是能持续探索高质量、多样攻击空间的生成方法。Stable-GFlowNet 明显比单纯 search / evolutionary red-teaming 更像耐用方法。
它没有更高,是因为当前证据仍主要落在 red-teaming 这一层,还没有证明它能成为更广安全探索或 agent stress-testing 的通用分布学习接口。