MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning

强化学习突破级暂无讲解视频

发表时间: 2026-04-07
arXiv: 2604.05943

收录解读

多智能体强化学习长期受困于任务定制化：不同环境往往需要不同网络、不同输入工程和不同训练套路，这使跨领域复用和预训练几乎无从谈起。相比自然语言领域已经形成的 foundation model 路线，MARL 仍高度碎片化。

MARL-GPT 的关键贡献是提出统一的观察编码和离线训练范式，用一个 GPT 风格模型同时处理 SMACv2、GRF 和 POGEMA 等结构完全不同的多智能体环境。它通过通用的特征/智能体/队伍/时间步嵌入对观测做 token 化，再结合大规模专家轨迹上的离线 RL 与模仿学习，实现单模型跨任务表现。

它值得正式收录，因为它给 MARL 提供了“基础模型化”的清晰入口：统一编码、统一 backbone、跨环境联合训练，而不是继续在每个 benchmark 上单独造模型。这条线对 multi-agent control、offline RL 和 sim-to-real 都有较高系统外溢价值。

它暂时不升到更高一级，原因在于当前仍依赖结构化向量观测和强专家数据，真正意义上的跨环境常识迁移、像素级感知和冷启动能力还没有被证明。

链接

论文链接