Adaptive Parallel Monte Carlo Tree Search for Efficient Test-time Compute Scaling

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00510

收录解读

test-time compute scaling 已经成为提升 reasoning LLM 的一条主线，但 MCTS 这类方法在真实系统里很容易被长尾延迟拖垮。问题不只是平均性能，而是不同 query 的 search depth 和 search usefulness 高度不均，最终让线上系统在 p99 latency、资源争用和吞吐稳定性上付出很大代价。

论文针对这一痛点提出 adaptive parallel MCTS。核心不是单纯更快地跑搜索，而是增加 negative early exit 来主动剪掉无进展的 search branch，再用 adaptive boosting 机制把回收的预算重新分配给仍值得继续的并发搜索，从而在保持 reasoning accuracy 的同时改善尾延迟和资源利用。作者还把实现接进 vLLM，强调其系统落地性。

这篇工作值得收录，因为它把 TTCS 从“多给算力就行”的研究叙事推进到更接近线上可部署的调度与预算控制问题。对 reasoning serving、search-based decoding 和 inference-time adaptation infra，这种对 tail latency 与 parallel contention 的显式处理具有明显复用价值。

它没有升到更高一级，是因为方法仍然建立在既有 MCTS/TTCS 框架之上，更像把这一条路线做对、做稳，而不是改写 test-time reasoning 的总体范式。它是很强的系统化推进，但还不是更高层级的方向重构。

链接

论文链接