刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

继Kaggle Game Arena淘汰赛后，国际象棋积分赛最终排名揭晓！

OpenAI o3以等效人类Elo 1685分的成绩登顶榜首，Grok 4与Gemini 2.5 Pro紧随其后位列第二、第三名。

DeepSeek R1-0528、GPT-4.1、Claude Sonnet-4及Claude Opus-4四款模型并列第五名。

本次积分赛采用严格Elo排名机制进行实力验证：参赛AI仅通过文本输入进行对弈，在无工具辅助、无验证器介入的情况下完成超过40轮对抗赛。

每组模型需进行20场执白棋与20场执黑棋对决构建循环赛制榜单。

冠军OpenAI o3展现出显著优势，其等效人类Elo分达1685分（注：人类大师级棋手评分为2200分或更高）。

亚军Grok 4以1395分紧随其后；

季军Gemini 2.5 Pro则取得1343分成绩。

值得注意的是DeepSeek-R1-0528与GPT-4.1等四款模型在第五名位置形成激烈竞争格局。

本次赛事采用标准Bradley-Terry算法计算Elo分数，并通过Stockfish引擎不同等级（L0-L3对应人类Elo 1320至1742分）进行交叉验证。

所有参赛模型与Stockfish各等级引擎对弈结果经线性插值法换算得出最终人类等效评分。

当前最强Stockfish版本（Elo 3644）仍远超所有AI参赛者表现。

排行榜新增”平均每回合Token数”及”成本消耗”指标以衡量性能效率比，并同步发布包含完整PGN棋谱及推理过程的基准测试数据集（Chess Text Gameplay）。

该数据集通过记录模型每步决策逻辑与博弈过程，有效规避静态测试中的记忆干扰问题。

Kaggle强调该评测体系具备三大核心价值：其一通过动态博弈排除记忆作弊可能；

其二模拟高压环境考验模型实时决策能力；

其三为通用人工智能发展提供战略推理能力评估范式。

尽管当前AI与人类顶尖棋手（特级大师需达2500+ Elo）仍存在差距，但此类竞技平台将持续推动战略推理技术突破。

未来Game Arena将扩展更多游戏类型排行榜，并定期更新纳入新型AI模型参与评测。

此次国际象棋文本输入基准测试作为首个落地项目，在严谨科学评估与观赏性竞技间实现了创新平衡。（注：具体技术细节及完整数据可通过Kaggle官方链接获取）