LLM Router: Rethinking Routing with Prefill Activations

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-03-21
arXiv: 2603.20895

收录解读

multi-model routing 的经典做法通常依赖 query 语义特征，但这类信号往往并不能真正捕捉模型各自的 failure modes，也很难判断某条 query 对某个目标模型究竟是容易还是困难。问题不是 router 有没有语义理解，而是缺少更贴近模型内部可解性与正确率的 routing signal。

论文提出用 prefill activations 做 routing signal，并通过 Encoder-Target Decoupling 将产生信号的 encoder 与被估计正确率的 target model 解耦。这样即便 target 是 closed-source model，也可以用 open-weight encoder 的 prefill activations 来做预测。作者进一步比较 layerwise geometric probes，并引入 SharedTrunkNet，同时预测多个候选模型的 correctness probability。实验显示，这种 mechanistic routing 明显优于纯语义基线，并在成本上显著节省。

这篇工作值得收录，因为它把 routing 从 prompt/semantic heuristics 推进到 activation-based mechanistic signal。对 cost-aware serving、model selection、multi-model orchestration 和 inference control，这是一种有明显长期价值的 routing 视角，而不是单纯再调一个 bandit 参数。

它没有升到更高一级，是因为当前主要价值仍体现在 routing 层优化，尚未证明这种 prefill-activation routing 会成为更广 LLM serving 栈的默认标准接口。它很强，但仍是具体系统层中的重要推进。

链接

论文链接