推理、记忆与推理时控制

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

发表：2026-06-11 · 颠覆级

这篇论文把数学证明能力组织成生成、验证、修复、排序的 test-time population search。核心贡献是 generative-verifier RL 与低假阳性 verifier 结合，使同一模型在测试时承担 generator、verifier、refiner 和 ranker。它值得收...

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

发表：2026-05-21 · 突破级

ThriftAttention 处理长上下文推理中的注意力成本问题：全 FP16/FP8 计算昂贵，而统一低精度又会破坏关键 token 或关键头的精度。论文提出 selective mixed precision，让 attention 中不同位置、头或计算路径按重要性使用 FP4 与更高精度混合，从而降低...

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

发表：2026-05-14 · 突破级

MemLens 针对多模态长期记忆提出系统评测：问题来自多轮、多 session 对话，并明确要求模型利用图像证据、时间顺序、知识更新和拒答能力。论文关键价值在于把 long-context LVLM 和 memory-augmented agents 放在同一评测接口下比较。结果显示长上下文模型短上下文表现...

Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization

发表：2026-04-16 · 突破级

问题与背景：test-time compute scaling 有效但昂贵，真实部署必须决定哪些输入值得多采样/搜索/长推理，哪些可以低成本回答。方法与新意：论文把问题形式化为平均 compute budget 约束下最大化准确率，用 Lagrangian relaxation 分解为单样本 oracle a...

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

发表：2026-04-14 · 突破级

这篇论文系统研究 on-policy distillation 的成功条件和失败机制。OPD 已经成为大模型 post-training 的重要技术，但过去更多依赖经验 recipe，缺少对 teacher-student 动态的可解释规律。作者提出两个关键条件：学生和老师需要兼容的 thinking pat...

Routing-Free Mixture-of-Experts

发表：2026-04-01 · 颠覆级

Mixture-of-Experts 已成为扩展模型容量和训练效率的核心路线，但现有主流设计几乎都默认依赖一个集中式 router，再配上 softmax、top-k 和显式 load balancing 规则。这套结构虽然有效，却也把很多设计选择提前硬编码进了系统，限制了专家激活与资源分配方式的可塑性。Rou...

Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning

发表：2026-04-01 · 突破级

test-time scaling 带来了更强推理能力，但也把推理成本迅速推高。很多情况下，真正的问题不是模型不会做，而是采样和 stopping 决策缺乏校准，导致系统在无需额外思考时仍然花大量算力。ORCA 正是从 reasoning calibration 这个角度切入，尝试在保证风险控制的前提下减少无效...

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

发表：2026-03-06 · 突破级

长程记忆一直是通用模型能力扩展的硬瓶颈。传统 full attention 路线在上下文长度升到百万级后，计算与 KV cache 成本都会迅速失控；而 RAG、外部 memory agent 或固定状态模型虽然能绕开部分长度限制，却往往带来精度下降、延迟膨胀、记忆不可编辑，或缺乏端到端优化的问题。MSA 正面...

Continuous Autoregressive Language Models

发表：2025-10-31 · 颠覆级

这篇论文针对自回归语言模型的核心效率瓶颈：标准 LLM 每一步只生成一个离散 token，因此长文本生成、推理和服务吞吐都被 token-by-token 的串行链条限制。单纯加速 kernel 或投机解码仍然是在离散 token 序列上做补丁，无法改变每个生成步的语义带宽。 CALM 的核心新意是把自回归目标...

Titans: Learning to Memorize at Test Time

发表：2024-12-31 · 颠覆级

- 分级：`颠覆性` - 正式标题：`Titans: Learning to Memorize at Test Time` - 原文：`2024-12-31-R2_Titans-Titans_Learning_to_Memorize_at_Test_Time.pdf` - 抽取：`extracted.md` #...