英伟达近日推出了采用Mamba-Transformer混合架构的全新90亿参数模型NVIDIA Nemotron Nano 2,在推理吞吐量方面较同类模型最高提升6倍,并在数学、代码生成、复杂推理及长上下文处理等任务中达到与Qwen3-8B相当甚至更优的表现水平。
这个意外之举让业界注意到英伟达正持续跟进开源模型领域的发展。
最新发布的Nemotron-Nano-9B-v2模型以革命性混合架构为核心,在复杂推理基准测试中展现出与Qwen3-8B相当甚至更卓越的准确率表现的同时,推理吞吐量实现最高6倍提升。
该模型特别针对长思维链生成场景进行了优化,在128k超长上下文支持下仍能保持高效运算能力。
通过将传统Transformer架构中的大部分自注意力层替换为闪电般快速的Mamba-2层设计,在处理长序列任务时实现了计算复杂度从O(n²)到线性级别的突破性改进。
这种基于结构化状态空间模型(SSMs)的技术创新使模型在百万级token超长上下文处理中仍能保持高效运行。
训练过程分为三个关键阶段:首先基于包含20万亿token的多领域高质量数据集完成预训练;
继而通过SFT(监督微调)、DPO(偏好优化)、GRPO(渐进式奖励优化)及RLHF(人类反馈强化学习)等多阶段对齐方法提升对话与工具调用能力;
最终采用Minitron策略对120亿参数基础模型实施结构化剪枝与知识蒸馏压缩至90亿参数规模。
实测数据显示该模型在GSM8K数学推理、HumanEval+代码生成、MMLU-Pro通用推理等基准测试中表现优异,在8k输入/16k输出场景下吞吐量较同类开源模型提升达6.3倍。
英伟达同步开放了包含128k上下文支持的三个版本模型及6.6万亿token规模预训练数据集Nemotron-Pre-Training-Dataset-v1。
值得注意的是当前开源生态格局正在发生变化:Meta逐步转向闭源策略的同时,国内厂商持续推动开源创新实践。
英伟达此次不仅开放了涵盖网页文本、多语言问答、数学代码专项数据集的核心训练资源,并提供官方体验平台供开发者验证其128k超长上下文处理能力。(体验链接:https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2)
评论列表 (0条):
加载更多评论 Loading...