N3

Nemotron

下一代开放智能模型

Nano · Super · Ultra

Nemotron 3 Nano 30B:轻量却深度推理,专为高吞吐多智能体而生

采用 Mamba‑2 与 Transformer 混合架构、稀疏 MoE、1M 上下文窗口,并通过 SFT + RLVR + RLHF 打磨推理与工具链能力。 以 31.6B 总参数、单 token 激活约 3.6B,实现最高达 4 倍于上一代的推理效率。

上下文

1M tokens

吞吐提升

≈3.3×

vs Qwen3-30B @H200

推理控制

ON/OFF

可设思考预算

开放许可

NVIDIA OML

Hybrid Mamba-Transformer

MoE · 6/128 Expert 路由

Agent Ready
活跃参数 ~3.6B / token
吞吐对比 (8K→16K) 3.3× Qwen3-30B
核心场景 长链条推理 · 工具 · 多智能体

上下文训练

512k CPT + 4k 混合

加速框架

vLLM / SGLang

推理控制

思考预算可配置

部署接口

OpenRouter · build.nvidia.com

TL;DR

模型亮点速览

架构

Mamba-2 + Transformer + 稀疏 MoE

混合序列建模叠加 GQA 注意力,MoE 路由激活 6/128 专家,兼顾长上下文与精细推理。

效率

高吞吐低延迟

单 H200 8K→16K 场景,吞吐约为 Qwen3‑30B 的 3.3×、GPT‑OSS‑20B 的 2.2×,高并发智能体不再卡顿。

推理控制

思考开关 + 预算

多轮任务支持 Reasoning ON/OFF,并可设置思考 token 上限,让成本可预测。

上下文

1,000,000 tokens

通过 512k CPT 与 4k 混合训练延伸上下文,适配长链条决策、长文档检索与持久记忆。

开放度

全栈开放

开放权重、数据、训练配方和代码;许可为 NVIDIA Open Model License,便于集成与复现。

适用场景

推理、工具、智能体

跨数学、代码、工具使用与多步代理任务保持高准确率,面向多智能体和高频调用。

性能与架构

用更小激活取得大模型推理力

Nemotron 3 Nano 以 31.6B 总参数、单 token 仅激活约 3.6B,通过 MoE 提升推理力同时保持轻量吞吐。

活跃参数占比 ~11%
吞吐提升 vs Nano 2 ≈4×

注意力

GQA + 思考预算

MoE 路由

6 / 128 专家

上下文

1M 长上下文

推理模式

Reasoning ON / OFF

适配关键场景

  • 多智能体 / 高并发

    轻量激活与高吞吐,降低并发成本,适合复杂分工和协作式 agent 体系。

  • 长链条推理与工具调用

    Reasoning ON 保存链式思考,OFF 保持对话简洁;配合思考预算防止 token 失控。

  • 检索增强 / 持久记忆

    1M 上下文覆盖多文档、多跳信息汇聚,支持研发、法律、运维等长文档场景。

数据与训练

从 25T 预训练到大规模 RL 的全链路开放

预训练、长上下文扩展、SFT、RLVR、RLHF 全流程开放数据与配方,开发者可复现与定制。

预训练

25 万亿 token 语料,其中 2.5T 为新增 Common Crawl;阶段一覆盖多样长尾,阶段二用高质量语料收敛。

新开源数据

额外 3T token

更密集的代码、数学与推理合成数据。

长上下文扩展

512k 连续预训练(CPT)与 4k 混合,保留短文本精度的同时获得 1M 窗口;合成数据覆盖多跳检索、跨文档聚合与长程推理。

训练信号

多文档 · 长期记忆

防止长程衰减并保持短序列表现。

后训练

SFT + RLVR + RLHF 三阶段:跨数学、代码、工具、结构化输出的多环境 RL,辅以 GenRM 带来的对话奖励。

SFT 数据

1300 万样本

RL 环境

10+ · 90 万任务

安全追踪

~1.1 万 agent traces

奖励模型

GenRM (GRPO)

NeMo Gym

为 RL 而建的开放体操房

针对多步 rollout、工具易碎、规模化采样难等痛点,NeMo Gym 统一环境、数据与代码,让 RL 训练走向大众。

解决的难题

  • 多步 rollout 协同困难 → 提供同步 GRPO 管线,跨环境统一调度。

  • 工具集成脆弱 → 标准化工具与训练循环接口,减少逻辑冲突。

  • 高质量环境闭源 → 开源数学、代码、日程等 10+ 环境与 90 万任务。

开发者收益

  • 即拿即用的 RL 环境,便捷复现 Nemotron 3 的 RLVR 与 RLHF 配方。

  • 开放的追踪与安全数据,提前诊断工具使用中的风险与漂移。

  • 与 vLLM / SGLang 等推理框架兼容,便于从训练到部署的一体化交付。

开放资源

模型、数据与接口

持续更新

模型权重

Nemotron 3 Nano 30B A3B

BF16 权重,MoE 架构,支持 vLLM / SGLang 部署。

Hugging Face 链接 →

基座与衍生

Nemotron 3 8B Base 4k

适合端侧或低延迟应用,可按相同配方继续后训练。

查看模型 →

技术解读

深入架构与训练

阅读 NVIDIA 官方博客,了解设计取舍、RL 基础设施与数据管线。

阅读博文 →