科学发现旗舰工作
突破级
有讲解视频
收录解读
## 问题与背景 问题与背景:很多 transformer-based probabilistic models 在单次边际预测上很强,但一旦要做 coherent joint prediction,往往需要反复重编码上下文,推理开销很大。这个问题在表格、小样本和神经信号建模里都很实际。
## 方法/新意 方法/新意:论文提出 causal autoregressive buffer,把 context encoding 与 target dependency 更新解耦。这样模型只处理一次上下文,然后通过动态 buffer 支撑 batched autoregressive generation 和 joint likelihood 计算。
## 意义/放在仓库中的位置 意义/放在仓库中的位置:这篇适合放在系统优化 / 概率 Transformer / TabPFN 旁系主线。它不是纯系统 hack,而是把 set-conditioned probabilistic modeling 和 autoregressive generation 更自然地接起来。
## 局限/为何不更高 局限/为何不更高:影响面主要集中在 probabilistic inference 这一子领域,虽然有价值,但不像 FlashAttention 这类基础设施论文那样外溢更广,因此归为突破性。