几天以来不论国内还是国际科技圈都在热议DeepSeek最新发布的V3.1大模型版本。
这款采用混合推理架构的新模型能够在统一框架内实现”思考模式”与”非思考模式”的灵活切换,在工具调用、编程及智能体任务等场景下展现出显著提升的表现力。
通过训练后优化策略的应用,该版本在SWE-bench等专业评测榜单上已陆续提交多项基准测试结果,并在Aider多语言编程基准测试中超越Claude 4 Opus取得最佳成绩。
相较于前代产品,V3.1通过思维链压缩训练技术实现了性能突破:虽然解决问题所需步骤有所增加,但相同任务完成度下token消耗量降低20-50%,有效成本已与GPT-5 mini持平。
这种效率提升得益于其采用的UE8M0 FP8量化方案——该格式通过无符号8位浮点数表示法重新定义了计算精度与存储成本的平衡点。
根据Hugging Face技术文档披露的信息,DeepSeek V3.1采用6850亿参数规模,其训练过程特别应用了UE8M0 FP8缩放浮点格式以兼容微缩放浮点机制。
这种创新性量化策略将8位二进制位全部分配给指数部分(E),舍弃了传统浮点数中的符号位(S)和尾数位(M),形成独特的非负数值表示体系。
这种设计使模型能够覆盖极宽的数据范围,特别适用于处理梯度、激活值等跨数量级变化的数据特征,但可能牺牲了部分数值精度。
在硬件适配层面,UE8M0量化方案被认为是对国产AI芯片生态的重要呼应。
当前华为昇腾910B、寒武纪MLU370s等国产AI芯片均已支持FP8计算格式,而DeepSeek此次技术路线选择或将推动国产硬件与算法模型的深度协同优化。
值得注意的是,华为提出的HiFloat8(HiF8)方案通过锥形精度设计实现了正反向传播全流程覆盖,这种创新思路可能为行业提供新的技术参考方向。
关于公众普遍关心的国产芯片训练问题,尽管英国《金融时报》曾报道DeepSeek R2因使用国产芯片导致训练延迟,但公司官方已明确否认相关说法。
目前看来,V3.1版本仍主要依托通用计算平台完成训练工作,UE8M0更多是面向推理阶段的硬件优化设计。
不过随着国内AI算力基础设施不断完善,未来大模型针对昇腾、寒武纪等自主芯片开展专项优化并实现规模化部署将成为必然趋势。
(参考链接:路透社/英国金融时报相关报道)
评论列表 (0条):
加载更多评论 Loading...