DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍

DeepSeek-V3.1正式发布，作为首个采用「混合推理」架构的模型系列，标志着智能体技术发展的新阶段。

该模型参数规模达到6710亿级，在编程能力开源领域超越DeepSeek-R1、Claude 4 Opus等竞品登顶榜首。

此次升级通过「思考模式」与「非思考模式」的双轨架构设计（用户可自主切换），在推理速度与智能体能力上实现突破性提升。

相较于前代DeepSeek-R1-0528版本，在代码工程基准测试中全面领先，并在人类认知评估（HLE）中取得29.8分的优异成绩。

新版模型延续了开源传统，在Hugging Face平台同步推出两个版本：DeepSeek-V3.1-Base经过额外8400亿token持续预训练优化，并扩展了上下文支持能力；

完整版DeepSeek-V3.1则通过后训练优化进一步强化性能表现。

技术细节显示其采用两阶段长上下文扩展策略：32k扩展阶段训练数据量提升至6300亿token（较之前增长10倍），128k扩展阶段达到2090亿token（增幅达3.3倍）。

训练过程中引入UE8M0 FP8缩放数据格式，在保持兼容性的同时优化计算效率。

API接口方面实现重要创新：deepseek-chat对应非思考模式侧重快速响应（支持128k上下文），deepseek-reasoner启用思考模式强化复杂推理能力（同样支持128k）。

自9月5日起启用新版定价策略后，该模型在编程智能体领域的优势更加显著——Aider编码测试得分76.3%，大幅超越Claude 4 Opus和Gemini 2.5 Pro；

代码智能体任务中性能表现碾压R1与V3系列旧版；

通过Search Agent架构更可调用多轮工具完成复杂查询，在BrowseComp测试中完胜R1版本。

第三方基准测试进一步验证其实力：MMLU数学测评刷新最高纪录，在GPQA通用问题回答榜单位列第二仅落后gpt-oss；

Artificial Analysis综合评估同样印证其推理效率与OpenAI产品处于同一梯队水平。

此次升级不仅巩固了编程领域开源模型领先地位，更通过模块化智能体框架为开发者提供了灵活构建各类AI应用的可能性。