开源领域竞争日益激烈。
近日字节跳动Seed团队正式发布并开源了Seed-OSS系列模型。
该系列包含三个版本:Seed-OSS-36B、Seed-OSS-36B-Base及Seed-OSS-36B-Instruct三款大语言模型。
所有模型均基于超过12万亿(即12T)token的数据进行训练,并在多个主流开源基准测试中展现出卓越性能。
该系列的核心特性包括: 其一,基础架构采用多技术融合设计:通过因果语言建模、分组查询注意力机制(Grouped Query Attention)、SwiGLU激活函数、RMSNorm标准化方法及RoPE位置编码等先进技术构建而成。
其二,在参数规模与处理能力方面:各模型均搭载360亿参数量级网络架构(共64层),支持最大达5.7万维度词表规模,并实现长达512k token的最大上下文长度处理能力——这一指标达到OpenAI最新GPT-5系列两倍水平(约相当于处理文本量达传统模型的十六倍)。
其三,在推理控制维度上创新性引入”推理预算”机制:开发者可通过指定推理预算参数动态调节模型思考深度——数值设置为512 token整数倍时能获得最佳性能表现(如设置为0则直接输出答案)。
该设计已在NVIDIA近期发布的Nemotron-Nano-9B-v2等开源模型中得到相似实践验证。
基准测试数据显示: 基础版(含合成数据增强)在MMLU-Pro评测中取得65.1分,在MATH数学挑战任务中达到81.7分;
非合成基础版虽稍逊于前者但在多数场景仍具竞争力;
指令优化版(Instruct)则在多项专业评测中刷新最佳成绩记录。
实际应用层面呈现显著特征: 当面对简单任务(如IFEval评测集)时,默认无限长度模式下性能波动较小;
而面对复杂任务(如AIME及LiveCodeBench代码生成场景),随推理预算提升性能呈阶梯式增长趋势。
特别值得注意的是:系统会实时监控token消耗情况——当未指定预算时将自动启用无限长度推理模式;
建议开发者优先采用推荐数值区间设置以确保最优效果表现(低于512 token时建议直接设为0)。
评论列表 (0条):
加载更多评论 Loading...