智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文关注的是一个比‘让 LLM 帮忙写策略代码’更进一步的问题:能不能让大模型直接发现新的多智能体学习算法,而不是只在既有算法框架里调参。作者将问题放在不完全信息博弈和多智能体学习场景中,目标不是生成单个策略,而是发明能系统性改进学习过程本身的算法。
方法上,这篇工作沿用了大模型驱动的算法搜索思路,让 LLM 在程序空间里提出候选更新规则和求解器结构,再通过外部评测闭环筛选有效方案。论文报告发现了新的算法变体,例如 VAD-CFR 和 SHOR-PSRO,并在相应基准上优于强基线,说明大模型已经不只是复述已有多智能体学习套路,而是能在受控搜索框架中发现有竞争力的新算法。
这篇论文适合放在 agentic algorithm discovery / multi-agent learning 主线。它和 AlphaEvolve 路线有明显亲缘关系,但场景更聚焦于博弈与多智能体学习。它的价值在于证明:大模型驱动的算法发现并不只适用于矩阵乘法或单一科学问题,也开始能进入复杂策略学习与博弈求解领域。
它还没有升到更高一级,因为外溢范围目前仍主要集中在多智能体学习和博弈求解,尚未像 AlphaEvolve 本体那样形成更广泛的方法论标志。此外,结果虽强,但还需要更多社区复现和跨任务验证,才能确认这些新算法是否会成为长期主线。