人不能同时踩两个坑,但 OpenAI 做到了。
GPT-5 发布会上一张比例失调的对比图表引发全网质疑后迅速修正。
表面上看 GPT-5 在 SWE-bench Verified 测试中取得74.9%的成绩看似领先 Claude Opus 4.1 的74.5%,但知名机构 SemiAnalysis 发现其中存在关键细节:OpenAI 实际仅完成477道题目而非标准500题。
这个测试集包含GitHub真实项目中的500个Python Bug修复案例(涵盖Django等主流库),要求AI提交符合规范的Pull Request并通过所有测试用例——这被业界视为最贴近真实开发场景的编程能力评估体系。
Anthropic 在发布Claude Opus 4.1时明确标注完整完成全部500题获得74.5%得分率;
而OpenAI 的74.9%成绩仅基于477道有效题目计算得出——缺失的23题官方解释为”现有基础设施无法运行”。
这种选择性执行带来的偏差引发争议:若将未作答题目按零分计算,则GPT-5得分将降至约69.9%(根据GPT-4.1的历史数据推算)。
值得注意的是该测试集本身由OpenAI于2024年构建,在原始1699题中筛选出”可执行”题目时采用了独特标准:邀请93名程序员对题目可解性进行0-3分评级(3分代表基本无法解答),最终剔除所有2分/3分题仅保留500道基础题型构建Verified版本——这种自主制定规则又参与评测的操作模式引发中立性质疑。
在公开排行榜swebench.com上(允许使用全部原始题库),Claude 4 Opus 5月版本反而超越GPT-5的表现更显此争议意义重大。
而此次发布会另一焦点——内部推理模型在IOI竞赛斩获金牌的成绩也存在信息差:该实验室版本模型与商用版GPT-5存在性能差异且未开放给公众使用。
当技术差距缩小到个位小数点时每个细节都成为博弈焦点:从测试范围选择到计分规则应用乃至版本披露方式都在放大镜下接受审视。
不过也有观点指出商业价值才是核心指标——当前GPT-5 API调用成本仅为Claude Opus系列十分之一、Sonnet系列五分之一,在实际应用场景中性价比优势可能远超百分比数字差异带来的感知差距。
评论列表 (0条):
加载更多评论 Loading...