未等到Deepseek R2版本更新时, DeepSeek团队悄然推出了V 3.1迭代版本。
官方消息仅简要提及将上下文长度扩展至128K token, 这一数值与当前GPT-4o系列模型处理能力持平。
最初推测此次升级幅度有限, 但实际体验后却带来了不少惊喜。
01代码能力与前端审美提升 从开源社区Huggingface公布的模型参数看, 新版模型参数量达6850亿, 支持BF16、F8_E4M3、F32等张量数据类型, 在计算精度与效率间取得平衡优化。
最显著提升体现在代码生成领域, 前端界面设计也获得突破性改进。
以”设计开发日历+待办事项结合产品”测试为例: 核心功能需求包括: 系统生成的产品设计方案已达到行业标准水平, 能精准解析指令且交互逻辑无明显漏洞, 表现与Claude 3.7不相伯仲。
Claude 3.7生成的日历代办界面虽简洁但视觉层次感稍弱 在天气卡片测试案例中新版优势更为突出: (左侧为新版V3.1生成效果/右侧为旧版R1输出结果) 新版本不仅呈现降雨动画和太阳图标等动态元素, 还完整展示了温度/湿度/风速等核心信息模块 面对复杂交互流程图测试要求时: 系统采用Mermaid语法构建了用户-智能体-LLM-MCP服务器交互框架图, 虽细节颗粒度有待加强 但其纯JavaScript实现三维变换效果的技术路径值得肯定——通过CSS 3D转换实现空间布局而无需调用外部库 不过在三维场景构建上仍显吃力: 对比GPT-5同类型输出可见能量球脉冲特效差距明显 02逻辑推理能力进步 作为非专业推理模型,V3.1在逻辑推演方面取得突破性进展: 以经典豆包分食问题为例: 系统虽能完整呈现解题思路但最终答案选项存在偏差 需注意该版本仍存在显著缺陷:当要求以吴晓波风格撰写大疆公司分析文章时 系统虚构了三本不存在的参考文献作为内容支撑 此次迭代虽未带来革命性变化,但在代码工程化能力、视觉呈现质量及成本优化层面均有实质性进步
评论列表 (0条):
加载更多评论 Loading...