Universal YOCO for Efficient Depth Scaling

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.01220

收录解读

test-time scaling 让 LLM 的推理和 agentic 能力显著提升，但标准 Transformer 在推理时做深度扩展并不高效：循环计算带来高额重复开销，而 KV cache 也会随着深度和长度一起膨胀。Universal YOCO 的出发点就是解决这种 inference-time depth scaling 的结构瓶颈。

论文把 YOCO 的 decoder-decoder 架构与 recursive computation 结合，提出 Universal Self-Decoder，在参数共享下执行多轮迭代，但把递归限制在更浅、更高效的 attention 层中。这样一来，YOCO 的 constant global KV cache 和 linear prefill 保留下来，而部分递归又能以较低额外代价增加表示深度。结果是 capability-efficiency tradeoff 比单独用 YOCO 或单独做 recursion 更好。

这篇工作值得收录，因为它给高效深度扩展提供了清晰的新 pattern：把高效注意力架构和递归深度计算耦合，而不是在标准 Transformer 上直接堆 test-time compute。对于长上下文、高效推理和可扩展 reasoning stack，这种结构接口有持续参考价值。

它没有升到更高一级，是因为当前仍然建立在 YOCO 这条特定架构路线之上，是否会外溢成更广泛的默认深度扩展方案还需要后续验证。它是很强的结构推进，但还不是明确的路线重写。

链接

论文链接