智能体与自主科学
突破级
有讲解视频
收录解读
这篇论文要解决的是多智能体强化学习里一个长期存在的问题:最优应对策略通常由黑盒神经网络给出,难以解释、难以调试,也很难信任。作者把这一问题重写为“让大语言模型直接生成可执行策略代码”,从而把策略学习从参数优化变成程序合成。
核心方法是 Code-Space Response Oracles(CSRO)。它在 PSRO 框架里用 LLM 取代传统 RL oracle,直接输出带注释的 Python 策略,并支持零样本生成、迭代精修和 AlphaEvolve 式代码进化。论文还发现,对手上下文的保留多样性比只盯最优对手更重要,否则模型会过拟合生成脆弱策略。
它在仓库里属于“agentic reasoning / multi-agent learning / interpretable policy synthesis”主线。价值不只在可解释性,还在于展示了 LLM 能在复杂博弈中显式合成带有心智理论和期望值计算的策略结构,这和 AlphaEvolve、代码搜索、可解释智能体设计有明显方法亲缘性。
它没有升到更高一级,是因为证据主要仍集中在多智能体博弈与可解释策略生成场景,尚未显示出对更大范围基础模型、Agent 系统或 AI for science 路线的重排能力。它是一篇很强的方法论文,但还不是总范式级成果。