英伟达再度开源重磅成果!
韩松团队研发出基于后神经架构搜索(PostNAS)的高效语言模型Jet-Nemotron。
该模型在多项基准测试中表现卓越:其准确率与Qwen3、Qwen2.5、Gemma 3及Llama 3.2等主流模型相当或更优,在生成阶段吞吐量实现最高53.6倍加速,在预填充阶段达到6.1倍加速提升。
特别在MMLU、MMLU-Pro和BBH基准测试中,Jet-Nemotron-2B较Qwen3-1.7B-Base吞吐量提升47倍的同时将缓存规模压缩至原尺寸的1/47,并在参数量相近条件下超越DeepSeek-V3-Small和Moonlight(共150亿参数及22亿激活参数)的准确率表现。
项目代码及预训练模型计划开源共享。
Jet-Nemotron的核心构建基于后神经架构搜索方法——通过冻结预训练大模型的多层感知机权重进行架构优化。
具体通过四步实现突破:首先采用”一次性超网络”学习全注意力层最优分布位置,在MMLU基准上较均匀分布策略提升显著;
其次筛选出Gated DeltaNet作为最优线性注意力模块;
接着创新设计JetBlock模块引入动态因果卷积核生成机制;
最后实施硬件感知架构搜索策略,在固定KV缓存规格下优化关键维度参数配置。
实验验证显示:Jet-Nemotron-2B在数学任务中取得49.6%平均准确率(较基线提速47倍),常识推理达62.0%并超越所有对比模型;
编码任务全面领先;
长上下文处理能力虽仅保留两个全注意力层却媲美同类先进模型。
当扩展至40亿参数规模时(Jet-Nemotron-4B),其平均准确率升至76.2%,同时保持较Qwen3系列21倍的速度优势。
研究团队由多位华人学者构成:清华大学黄民烈教授门生顾宇轩主导算法设计;
MIT韩松教授团队成员尚扬、胡擎昊参与核心开发;
伯克利博士生奚浩辰与清华姚班本科生陈俊余共同完成关键实验验证。
韩松教授作为英伟达杰出科学家,在深度压缩技术领域曾推动NVIDIA安培架构革新,并通过收购OmniML持续深化边缘计算优化研究。
项目相关论文已发布于arXiv平台并开源GitHub仓库,包含详细实验配置与基线对比数据集。(注:此处保留原文参考链接)
评论列表 (0条):
加载更多评论 Loading...