AI能否像科幻电影中的先知角色般预知未来?
一个名为「Prophet Arena」的创新基准测试正通过预测真实世界事件来检验人工智能系统的”预言”能力。
在昨晚结束的男篮亚洲杯决赛中,中国男篮虽以1分之差惜败澳大利亚队却创下十年最佳战绩——这种超出多数人预期的结果是否能被提前预判?
更进一步而言,在掌握全球海量信息后能否精确推演未来?
这正是今天要探讨的核心问题。
由芝加哥大学SIGMA实验室开发的Prophet Arena(https://www.prophetarena.co/about),首次构建了无法通过机械刷题突破的真实世界动态评估体系。
该基准测试通过实时更新的市场共识、自动化预测模型及社区洞察数据流,在不确定性推理、信息整合、概率预测及实际收益四个维度全面衡量AI系统的表现。
OpenAI推理研究负责人Noam Brown对此评价:”预测能力曾被视为人类独有能力领域,如今AI正迈出关键一步。
” 测试流程包含三个核心环节:首先模型需扮演情报分析师角色,在搜索引擎中收集新闻报道并整理成简报;
其次基于相同信息提交包含概率分布与推理过程的详细报告;
最终根据事件实际结果计算Brier评分(反映准确度与校准度)和模拟投注回报率两大核心指标,并实时更新排行榜单。
有趣的是数据分析揭示了”反转区域”现象:当Brier分数处于0.3-0.5区间时反而可能出现高回报预测。
典型案例是温网比赛中某模型对84%胜率选手仅给出80%概率判断,在对手爆冷获胜时实现6倍回报率。
这表明精准预言与投资收益存在非线性关联——正如职业赌徒所言:”成功不在于永远正确,在于正确时赚取超额利润”。
不同模型展现出显著的性格差异:面对”2026年前美国将出台联邦AI监管法案”事件时,Qwen3给出75%激进判断,Llama 4 Maverick保守预估35%,而GPT-4.1选择中间路线60%概率。
这种分歧在DeepSeek R1身上尤为明显,其预测与主流模型L2距离常超过0.7,而Grok-4与GPT-5等则保持高度一致性(L2
评论列表 (0条):
加载更多评论 Loading...