推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
test-time compute scaling 已经成为提升 reasoning LLM 的一条主线,但 MCTS 这类方法在真实系统里很容易被长尾延迟拖垮。问题不只是平均性能,而是不同 query 的 search depth 和 search usefulness 高度不均,最终让线上系统在 p99 latency、资源争用和吞吐稳定性上付出很大代价。
论文针对这一痛点提出 adaptive parallel MCTS。核心不是单纯更快地跑搜索,而是增加 negative early exit 来主动剪掉无进展的 search branch,再用 adaptive boosting 机制把回收的预算重新分配给仍值得继续的并发搜索,从而在保持 reasoning accuracy 的同时改善尾延迟和资源利用。作者还把实现接进 vLLM,强调其系统落地性。
这篇工作值得收录,因为它把 TTCS 从“多给算力就行”的研究叙事推进到更接近线上可部署的调度与预算控制问题。对 reasoning serving、search-based decoding 和 inference-time adaptation infra,这种对 tail latency 与 parallel contention 的显式处理具有明显复用价值。
它没有升到更高一级,是因为方法仍然建立在既有 MCTS/TTCS 框架之上,更像把这一条路线做对、做稳,而不是改写 test-time reasoning 的总体范式。它是很强的系统化推进,但还不是更高层级的方向重构。