Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-14
arXiv: 2604.12374

收录解读

问题与背景：agentic reasoning 的瓶颈不只是模型能力，还包括长上下文、多步工具调用和长输出场景下的吞吐成本。Nemotron 3 Super 把这个问题落在开放模型架构层面：120B 总参数、12B 激活参数、最长 1M context，并以 agentic 软件工程、terminal use、tool use 等长程任务作为后训练重点。

方法与新意：论文把 hybrid Mamba-Attention、LatentMoE、NVFP4 预训练和 MTP native speculative decoding 组合成一个面向高吞吐长上下文推理的系统方案。LatentMoE 追求 accuracy per FLOP 与 accuracy per parameter，Mamba/Attention 混合用于降低长序列推理成本，MTP 层把 speculative decoding 变成模型原生能力，而不是纯外部推理技巧。

收录意义：这篇的价值不在于又发布一个大模型，而在于给出了开放 agent 模型层的系统蓝图：稀疏激活、状态空间长上下文、低精度预训练、RL 后训练和推理加速共同设计。它对后续构建本地/企业级 agent 模型、长上下文工具使用模型、以及训练-推理协同优化都有复用参考价值。

局限：论文仍是单家模型报告，许多结论依赖 NVIDIA 自有训练基础设施、数据配方、GPU 栈和评测设置；LatentMoE、NVFP4 预训练和 MTP 的独立因果贡献还需要更多第三方复现与消融。因此当前定位为 breakthrough，而不是 disruptive 或 paradigm。

链接

论文链接代码