推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-03-21
arXiv
2603.20895

收录解读

multi-model routing 的经典做法通常依赖 query 语义特征,但这类信号往往并不能真正捕捉模型各自的 failure modes,也很难判断某条 query 对某个目标模型究竟是容易还是困难。问题不是 router 有没有语义理解,而是缺少更贴近模型内部可解性与正确率的 routing signal。

论文提出用 prefill activations 做 routing signal,并通过 Encoder-Target Decoupling 将产生信号的 encoder 与被估计正确率的 target model 解耦。这样即便 target 是 closed-source model,也可以用 open-weight encoder 的 prefill activations 来做预测。作者进一步比较 layerwise geometric probes,并引入 SharedTrunkNet,同时预测多个候选模型的 correctness probability。实验显示,这种 mechanistic routing 明显优于纯语义基线,并在成本上显著节省。

这篇工作值得收录,因为它把 routing 从 prompt/semantic heuristics 推进到 activation-based mechanistic signal。对 cost-aware serving、model selection、multi-model orchestration 和 inference control,这是一种有明显长期价值的 routing 视角,而不是单纯再调一个 bandit 参数。

它没有升到更高一级,是因为当前主要价值仍体现在 routing 层优化,尚未证明这种 prefill-activation routing 会成为更广 LLM serving 栈的默认标准接口。它很强,但仍是具体系统层中的重要推进。

链接