推理、记忆与推理时控制 颠覆级 有讲解视频
发表时间
2026-04-01
arXiv
2604.00801

收录解读

Mixture-of-Experts 已成为扩展模型容量和训练效率的核心路线,但现有主流设计几乎都默认依赖一个集中式 router,再配上 softmax、top-k 和显式 load balancing 规则。这套结构虽然有效,却也把很多设计选择提前硬编码进了系统,限制了专家激活与资源分配方式的可塑性。Routing-Free MoE 直接把这个默认前提拿掉。

论文提出 Routing-Free MoE,把专家激活功能完全收回到各个 expert 内部,不再使用外部 router、Softmax、Top-K 或固定的负载均衡模块,而是通过连续梯度流直接优化专家自身的激活行为。作者同时引入统一的 adaptive load-balancing framework,在 expert-balancing 与 token-balancing 之间做可配置插值,让资源分配目标本身也成为可调设计变量,而不是预先钉死的规则。

这篇工作值得收录,因为它不是在 MoE router 上做局部修补,而是在重写 MoE 的组织方式:从 centralized routing 转向 expert-local activation。这种改变具有明确的结构外溢,可能影响后续 MoE 的路由、扩展性、鲁棒性和资源调度设计,属于会改变问题处理方式的工作。

它没有升到更高一级,是因为当前证据仍主要来自作者论文中的实验与分析,外部采用和跨模型大规模验证还没有形成。它已经足够显示出 disruptive 意味,但是否会成为新的主流 MoE 蓝图,还需要更多后续工作确认。

解读视频

链接