DeepSeek-V3.1正式发布,作为首个采用「混合推理」架构的模型系列,标志着智能体技术发展的新阶段。
该模型参数规模达到6710亿级,在编程能力开源领域超越DeepSeek-R1、Claude 4 Opus等竞品登顶榜首。
此次升级通过「思考模式」与「非思考模式」的双轨架构设计(用户可自主切换),在推理速度与智能体能力上实现突破性提升。
相较于前代DeepSeek-R1-0528版本,在代码工程基准测试中全面领先,并在人类认知评估(HLE)中取得29.8分的优异成绩。
新版模型延续了开源传统,在Hugging Face平台同步推出两个版本:DeepSeek-V3.1-Base经过额外8400亿token持续预训练优化,并扩展了上下文支持能力;
完整版DeepSeek-V3.1则通过后训练优化进一步强化性能表现。
技术细节显示其采用两阶段长上下文扩展策略:32k扩展阶段训练数据量提升至6300亿token(较之前增长10倍),128k扩展阶段达到2090亿token(增幅达3.3倍)。
训练过程中引入UE8M0 FP8缩放数据格式,在保持兼容性的同时优化计算效率。
API接口方面实现重要创新:deepseek-chat对应非思考模式侧重快速响应(支持128k上下文),deepseek-reasoner启用思考模式强化复杂推理能力(同样支持128k)。
自9月5日起启用新版定价策略后,该模型在编程智能体领域的优势更加显著——Aider编码测试得分76.3%,大幅超越Claude 4 Opus和Gemini 2.5 Pro;
代码智能体任务中性能表现碾压R1与V3系列旧版;
通过Search Agent架构更可调用多轮工具完成复杂查询,在BrowseComp测试中完胜R1版本。
第三方基准测试进一步验证其实力:MMLU数学测评刷新最高纪录,在GPQA通用问题回答榜单位列第二仅落后gpt-oss;
Artificial Analysis综合评估同样印证其推理效率与OpenAI产品处于同一梯队水平。
此次升级不仅巩固了编程领域开源模型领先地位,更通过模块化智能体框架为开发者提供了灵活构建各类AI应用的可能性。
评论列表 (0条):
加载更多评论 Loading...