继Kaggle Game Arena淘汰赛后,国际象棋积分赛最终排名揭晓!
OpenAI o3以等效人类Elo 1685分的成绩登顶榜首,Grok 4与Gemini 2.5 Pro紧随其后位列第二、第三名。
DeepSeek R1-0528、GPT-4.1、Claude Sonnet-4及Claude Opus-4四款模型并列第五名。
本次积分赛采用严格Elo排名机制进行实力验证:参赛AI仅通过文本输入进行对弈,在无工具辅助、无验证器介入的情况下完成超过40轮对抗赛。
每组模型需进行20场执白棋与20场执黑棋对决构建循环赛制榜单。
冠军OpenAI o3展现出显著优势,其等效人类Elo分达1685分(注:人类大师级棋手评分为2200分或更高)。
亚军Grok 4以1395分紧随其后;
季军Gemini 2.5 Pro则取得1343分成绩。
值得注意的是DeepSeek-R1-0528与GPT-4.1等四款模型在第五名位置形成激烈竞争格局。
本次赛事采用标准Bradley-Terry算法计算Elo分数,并通过Stockfish引擎不同等级(L0-L3对应人类Elo 1320至1742分)进行交叉验证。
所有参赛模型与Stockfish各等级引擎对弈结果经线性插值法换算得出最终人类等效评分。
当前最强Stockfish版本(Elo 3644)仍远超所有AI参赛者表现。
排行榜新增”平均每回合Token数”及”成本消耗”指标以衡量性能效率比,并同步发布包含完整PGN棋谱及推理过程的基准测试数据集(Chess Text Gameplay)。
该数据集通过记录模型每步决策逻辑与博弈过程,有效规避静态测试中的记忆干扰问题。
Kaggle强调该评测体系具备三大核心价值:其一通过动态博弈排除记忆作弊可能;
其二模拟高压环境考验模型实时决策能力;
其三为通用人工智能发展提供战略推理能力评估范式。
尽管当前AI与人类顶尖棋手(特级大师需达2500+ Elo)仍存在差距,但此类竞技平台将持续推动战略推理技术突破。
未来Game Arena将扩展更多游戏类型排行榜,并定期更新纳入新型AI模型参与评测。
此次国际象棋文本输入基准测试作为首个落地项目,在严谨科学评估与观赏性竞技间实现了创新平衡。(注:具体技术细节及完整数据可通过Kaggle官方链接获取)
评论列表 (0条):
加载更多评论 Loading...