Discovering Multiagent Learning Algorithms with Large Language Models

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-24
arXiv: 2602.16928

收录解读

这篇论文关注的是一个比‘让 LLM 帮忙写策略代码’更进一步的问题：能不能让大模型直接发现新的多智能体学习算法，而不是只在既有算法框架里调参。作者将问题放在不完全信息博弈和多智能体学习场景中，目标不是生成单个策略，而是发明能系统性改进学习过程本身的算法。

方法上，这篇工作沿用了大模型驱动的算法搜索思路，让 LLM 在程序空间里提出候选更新规则和求解器结构，再通过外部评测闭环筛选有效方案。论文报告发现了新的算法变体，例如 VAD-CFR 和 SHOR-PSRO，并在相应基准上优于强基线，说明大模型已经不只是复述已有多智能体学习套路，而是能在受控搜索框架中发现有竞争力的新算法。

这篇论文适合放在 agentic algorithm discovery / multi-agent learning 主线。它和 AlphaEvolve 路线有明显亲缘关系，但场景更聚焦于博弈与多智能体学习。它的价值在于证明：大模型驱动的算法发现并不只适用于矩阵乘法或单一科学问题，也开始能进入复杂策略学习与博弈求解领域。

它还没有升到更高一级，因为外溢范围目前仍主要集中在多智能体学习和博弈求解，尚未像 AlphaEvolve 本体那样形成更广泛的方法论标志。此外，结果虽强，但还需要更多社区复现和跨任务验证，才能确认这些新算法是否会成为长期主线。

链接

论文链接