推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
test-time scaling 让 LLM 的推理和 agentic 能力显著提升,但标准 Transformer 在推理时做深度扩展并不高效:循环计算带来高额重复开销,而 KV cache 也会随着深度和长度一起膨胀。Universal YOCO 的出发点就是解决这种 inference-time depth scaling 的结构瓶颈。
论文把 YOCO 的 decoder-decoder 架构与 recursive computation 结合,提出 Universal Self-Decoder,在参数共享下执行多轮迭代,但把递归限制在更浅、更高效的 attention 层中。这样一来,YOCO 的 constant global KV cache 和 linear prefill 保留下来,而部分递归又能以较低额外代价增加表示深度。结果是 capability-efficiency tradeoff 比单独用 YOCO 或单独做 recursion 更好。
这篇工作值得收录,因为它给高效深度扩展提供了清晰的新 pattern:把高效注意力架构和递归深度计算耦合,而不是在标准 Transformer 上直接堆 test-time compute。对于长上下文、高效推理和可扩展 reasoning stack,这种结构接口有持续参考价值。
它没有升到更高一级,是因为当前仍然建立在 YOCO 这条特定架构路线之上,是否会外溢成更广泛的默认深度扩展方案还需要后续验证。它是很强的结构推进,但还不是明确的路线重写。