强化学习 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.05943

收录解读

多智能体强化学习长期受困于任务定制化:不同环境往往需要不同网络、不同输入工程和不同训练套路,这使跨领域复用和预训练几乎无从谈起。相比自然语言领域已经形成的 foundation model 路线,MARL 仍高度碎片化。

MARL-GPT 的关键贡献是提出统一的观察编码和离线训练范式,用一个 GPT 风格模型同时处理 SMACv2、GRF 和 POGEMA 等结构完全不同的多智能体环境。它通过通用的特征/智能体/队伍/时间步嵌入对观测做 token 化,再结合大规模专家轨迹上的离线 RL 与模仿学习,实现单模型跨任务表现。

它值得正式收录,因为它给 MARL 提供了“基础模型化”的清晰入口:统一编码、统一 backbone、跨环境联合训练,而不是继续在每个 benchmark 上单独造模型。这条线对 multi-agent control、offline RL 和 sim-to-real 都有较高系统外溢价值。

它暂时不升到更高一级,原因在于当前仍依赖结构化向量观测和强专家数据,真正意义上的跨环境常识迁移、像素级感知和冷启动能力还没有被证明。

链接