当前备受关注的先进AI模型是否具备博士级别的推理能力?
实际情况或许与人们的预期存在显著差距。
专注于超智能系统研究的AAI机构近期推出了一项名为FormulaOne的新评估基准,在测试GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4等当前主流大模型时发现这些系统全部未能通过最高等级测试。
该基准包含220道创新性图结构动态规划问题,按难度分为基础、进阶与科研三个层级。
…
当前备受关注的先进AI模型是否具备博士级别的推理能力?
实际情况或许与人们的预期存在显著差距。
专注于超智能系统研究的AAI机构近期推出了一项名为FormulaOne的新评估基准,在测试GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4等当前主流大模型时发现这些系统全部未能通过最高等级测试。
该基准包含220道创新性图结构动态规划问题,按难度分为基础、进阶与科研三个层级。
其中最高难度题目涉及拓扑几何分析及复杂组合问题求解。
测试案例按难度梯度呈现:从基础层级到进阶层级再到科研层级的问题示例显示,在看似简单的表层描述下隐藏着极具挑战性的解题路径。
这类问题的可解性依据Courcelle算法元定理构建理论框架:通过构建树分解结构将图顶点组织为重叠集合(即”袋”),并以树状拓扑连接这些集合单元。
解题过程需要设计能够概括”袋”内信息的状态变量,并定义当顶点被引入、遗忘或合并时的状态转换规则——这一过程要求对组合逻辑陷阱有深刻认知。
尽管顶尖模型在基础层级题组中展现出50%-70%的解题成功率(表明其训练数据覆盖了此类任务),但在进阶层级测试中表现骤降:Grok 4等系统仅能解决1%题目;
GPT-5 Pro以4%的解题率稍占优势。
而面对科研层级题目时所有受测模型均未能给出有效解答。
作为以色列企业家Amnon Shashua于2023年创立的人工智能初创公司(AA-I Technologies),AAI正致力于推进人工专家智能(AEI)理论发展——这种新型AI范式强调将领域专业知识与严谨科学推理相结合,在突破传统窄域AI局限的同时避免通用人工智能系统的泛化精度缺陷。
这家由Mobileye创始人掌舵的企业成立首年即获得千万美元级投资,并入选AWS 2024生成式AI加速器项目(获赠百万美元计算资源)。
其基础设施建设正依托这笔战略资源加速推进,在自动驾驶视觉识别等领域持续积累技术优势的同时,在复杂科学问题求解领域展开前沿探索。(关于Maximal-Cluster-Graph难题涉及的15步推理推导过程详见论文附录)
评论列表 (0条):
加载更多评论 Loading...