推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-14
arXiv
2604.12374

收录解读

问题与背景:agentic reasoning 的瓶颈不只是模型能力,还包括长上下文、多步工具调用和长输出场景下的吞吐成本。Nemotron 3 Super 把这个问题落在开放模型架构层面:120B 总参数、12B 激活参数、最长 1M context,并以 agentic 软件工程、terminal use、tool use 等长程任务作为后训练重点。

方法与新意:论文把 hybrid Mamba-Attention、LatentMoE、NVFP4 预训练和 MTP native speculative decoding 组合成一个面向高吞吐长上下文推理的系统方案。LatentMoE 追求 accuracy per FLOP 与 accuracy per parameter,Mamba/Attention 混合用于降低长序列推理成本,MTP 层把 speculative decoding 变成模型原生能力,而不是纯外部推理技巧。

收录意义:这篇的价值不在于又发布一个大模型,而在于给出了开放 agent 模型层的系统蓝图:稀疏激活、状态空间长上下文、低精度预训练、RL 后训练和推理加速共同设计。它对后续构建本地/企业级 agent 模型、长上下文工具使用模型、以及训练-推理协同优化都有复用参考价值。

局限:论文仍是单家模型报告,许多结论依赖 NVIDIA 自有训练基础设施、数据配方、GPU 栈和评测设置;LatentMoE、NVFP4 预训练和 MTP 的独立因果贡献还需要更多第三方复现与消融。因此当前定位为 breakthrough,而不是 disruptive 或 paradigm。

链接