随着新一代大语言模型(LLM)集中更新迭代,开源领域正掀起新一轮热潮。
近期有开发者发现全球最大的众包AI生成设计评测平台Design Arena上出现显著变化:当前排名前15位的开源AI模型全部由中国团队开发完成。
该平台采用Elo评分体系(类似国际象棋评级机制)进行动态排名评估。
真实用户会被随机展示两组不同模型生成的内容片段,并通过投票选择更优方案。
每次投票结果都会影响对应模型的Elo分数——当高分模型击败低分对手时得分增长有限;
若低分模型意外胜出则会获得显著加分增量。
这种机制使得排名结果既体现技术实力又具备动态竞争特性。
与MMLU、SWE-Bench等客观指标不同的是,Design Arena评测更贴近实际用户体验场景。
新发布的开源模型可快速通过用户对战积累口碑评分数据。
当前平台”开源”分类榜单显示: 榜首由智谱AI开发的DeepSeek-R1-0528占据 第二名是智谱GLM-4.5 第三名则为阿里云Qwen 3 Coder 480B 后续排名中持续可见DeepSeek系列、Qwen家族及GLM衍生型号 直到第16名才出现OpenAI近期开源的GPT OSS 120B 从厂商贡献度看: 阿里、智谱、昆仑万维等中国企业在7月共开源33款大模型(数据来源Hugging Face) 深度科技研究平台Interconnects统计显示国内已有19家顶尖开源实验室形成梯队: 包括DeepSeek、Qwen等头部机构 以及通过技术报告崭露头角的新锐学术团队 值得关注的是,在全球AI社区讨论中”Qwen”和”DeepSeek”已取代”Llama”成为开源大模型代名词。
有观点指出正是这些国产开源模型与闭源顶尖产品形成竞争态势,促使应用层企业将研发重心转向模型调优与场景落地优化——这种趋势或将推动未来先进AI技术必须采取开放策略。
对于中国AI开源生态崛起的原因探讨中 数学硕士Illya Gerasymchuk提出独特视角:他认为东亚地区在数学领域的优势积累正在转化为AI技术研发的核心竞争力 这种观点某种程度上颠覆了传统认知框架 参考资料链接: Design Arena官网 Rohan Paul推文 Interconnects推文
评论列表 (0条):
加载更多评论 Loading...