不必急于将GPT-5用于编程任务——其实际表现可能并未达到预期。
有研究者指出,在官方公布的编程能力评估中使用的SWE-bench Verified基准存在争议:原本包含500道题目的标准测试集被OpenAI自行缩减为仅477道题目进行评估。
这意味着他们实际上构建了一个子集的”子集”作为评价标准。
作为衡量模型自主编程能力的核心指标,SWE-bench通过人工筛选形成了包含500道验证题目的Verified子集,而OpenAI却擅自排除了23道题目进行测试。
若将被排除题目按零分计算,GPT-5的实际得分会比Claude Opus 4.1更低,当前两者仅存在0.4%的微弱差距。
这并非OpenAI首次采取此类操作。
在发布GPT-4.1时,官方曾以”无法在基础设施上运行解决方案”为由忽略部分题目,而此次对GPT-5的评估沿用了相同理由。
更具讽刺意味的是,SWE-bench Verified本是OpenAI联合发起的标准,最初正是因其认为原始SWE-bench无法有效评估模型编程能力才推动建立该验证集,如今却再次自我缩减测试范围。
社交媒体上已出现质疑声浪:有开发者实测发现,GPT-5的实际表现与Claude 4.1相差无几,而官方公布的评分体系可能存在误导性比较——他们将经过深度思维链优化的GPT-5与未启用思维扩展功能的基础版Opus 4.1进行对比,这种不均衡对照显然缺乏参考价值。
Anthropic公司已在Claude Opus 4.1的技术文档中明确标注:所有Claude 4系列模型均基于完整500题进行评分,而OpenAI则持续采用缩减后的子集数据。
更耐人寻味的是,SWE-bench Verified的建立过程本身充满争议:93位程序员参与标注筛选时,采用四档评分体系对题目质量进行分级,最终保留下来的500题仍包含不同难度层级——从196道15分钟内可完成的基础题到45道需超小时级解决的难题——这些严谨分类却被OpenAI简单粗暴地直接删减23题。
值得参考的是原始SWE-bench榜单显示,Claude 4 Opus仍保持着领先优势。
尽管存在测试标准争议,但该原始基准的数据完整性使其更具公信力。(相关链接已省略)
评论列表 (0条):
加载更多评论 Loading...