Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-10
arXiv: 2603.10098

收录解读

这篇论文要解决的是多智能体强化学习里一个长期存在的问题：最优应对策略通常由黑盒神经网络给出，难以解释、难以调试，也很难信任。作者把这一问题重写为“让大语言模型直接生成可执行策略代码”，从而把策略学习从参数优化变成程序合成。

核心方法是 Code-Space Response Oracles（CSRO）。它在 PSRO 框架里用 LLM 取代传统 RL oracle，直接输出带注释的 Python 策略，并支持零样本生成、迭代精修和 AlphaEvolve 式代码进化。论文还发现，对手上下文的保留多样性比只盯最优对手更重要，否则模型会过拟合生成脆弱策略。

它在仓库里属于“agentic reasoning / multi-agent learning / interpretable policy synthesis”主线。价值不只在可解释性，还在于展示了 LLM 能在复杂博弈中显式合成带有心智理论和期望值计算的策略结构，这和 AlphaEvolve、代码搜索、可解释智能体设计有明显方法亲缘性。

它没有升到更高一级，是因为证据主要仍集中在多智能体博弈与可解释策略生成场景，尚未显示出对更大范围基础模型、Agent 系统或 AI for science 路线的重排能力。它是一篇很强的方法论文，但还不是总范式级成果。

解读视频

B 站 YouTube

链接

论文链接