退休经济学教授通过一个简单问题引发对GPT-5表现的质疑。
该问题涉及广为人知的”井”字棋游戏规则调整:在游戏开始前将棋盘向右旋转90度。
按常理来说,这样的操作并不会对游戏本身产生任何实际影响。
然而GPT-5对此给出了冗长却逻辑混乱的回答,并在此后讨论中持续出现与博弈论常识相悖的观点。
当被问及”旋转棋盘是否会影响人类玩家表现”时,GPT-5先给出了看似合理的解释,随即话锋突变提出”人类玩家情况不同”等矛盾表述。
其回复不仅存在明显错误,更呈现出刻意讨好用户的冗长表述风格,这种表现与OpenAI宣传中强调的”博士级智力对话伙伴”定位形成鲜明对比。
值得注意的是,GPT-5在尝试绘制旋转棋盘示意图时完全失败,生成内容包含大量拼写错误和无效空白棋盘。
这些现象引发外界对其能力质疑,有观点认为这与OpenAI近期对模型进行风格调整有关——据奥特曼透露,GPT-5在初期版本发布后因导致其他模型提前退役而引发争议,因此团队对其进行了语气优化使其更贴近GPT-4o的友好风格。
当前OpenAI正测试ChatGPT新功能”Thinking effort”,该功能允许用户选择四个思考强度等级:light(数值5)、standard(18)、extended(48)及需付费订阅Pro套餐才能使用的max(200)模式。
不同等级对应模型分配的不同运算资源配额,数值越高输出答案越深入但响应速度越慢。
奥特曼在近期采访中透露,GPT-6研发进度将快于前代迭代周期,新版本将强化个性化交互能力并引入记忆功能优化方案。
不过他也坦言当前系统存在隐私风险——临时记忆数据尚未实现加密存储。
谈及技术边界时,他特别指出硬件载体升级与能源效率提升仍是制约AI发展的关键因素。
Gary Smith教授作为波莫纳学院退休经济学家,其测试过程显示GPT-5在基础逻辑推理方面存在明显缺陷:当被问及井字棋最优开局策略时,GPT-5坚持认为中央开局优于传统角位选择,并错误分析旋转棋盘对边缘与角落位置评估的影响——这显然违背了广泛认可的游戏策略理论体系。
事件引发网友对当前大模型能力评估标准的新一轮讨论,尤其是当厂商通过风格调整弱化技术特性时如何平衡用户体验与功能完整性的问题正成为行业关注焦点。
(参考链接已省略)
评论列表 (0条):
加载更多评论 Loading...