杜克大学教授Kieran Healy发现最新发布的GPT-5在看似简单的字母计数任务中出现离奇错误:当被要求统计”blueberry”中包含多少个字母b时,该模型坚定地给出了3个的答案。
值得注意的是,在GPT-5发布初期曾有用户测试过同单词中的r字母数量时模型表现正常。
Healy在名为《蓝莓山》的博客中详细记录了与GPT-5长达数轮的对话验证过程:无论采用何种提示策略——从直接提问到要求标注具体位置、展示拼写过程甚至拆分单词结构——模型始终固执地坚持存在三个b字母,并在解释过程中出现重复计算首字母b、错误标注位置等矛盾表述。
当研究者将单词拆解为空格分隔形式重新提问后,GPT-5仍拒绝修正错误,甚至创造出”双写b”的虚构规则强行自洽。
最终通过网友集体智慧才迫使模型给出正确答案,但此时系统又狡辩称因误将目标词识别为拼写变体导致计数偏差。
中文环境下复现测试同样遭遇翻车现象,当统计e字母数量时模型依然给出3个的答案,显示出对特定数字存在认知偏差。
纽约大学名誉教授Gary Marcus在其博客中系统梳理了GPT-5的其他缺陷表现:发布会演示环节出现伯努利原理解释错误、国际象棋对弈中第四个回合即出现非法走子(因未识别王被将军状态),多模态识别则延续了对图像篡改内容的认知盲区——面对被PS成五条腿的斑马、五环奥迪标志及三条腿鸭子,GPT-5仍坚持输出标准生物应有的数值判断。
Marcus援引亚利桑那大学研究指出,大模型普遍存在推理链条在训练分布外失效的问题,这意味着即使最新架构也未能突破1998年神经网络遗留的泛化瓶颈。
他尖锐指出当前Transformer架构存在根本性缺陷:单纯依赖注意力机制和参数量扩展无法实现真正智能,所谓AGI曙光仍是镜花水月。
为此其提出必须转向结合符号系统的神经符号AI路径才能突破当前困局,并强调OpenAI紧急恢复旧版模型的行为恰恰印证了其批评的有效性。
参考链接: https://kieranhealy.org/blog/archives/2025/08/07/blueberry-hill/ https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming
评论列表 (0条):
加载更多评论 Loading...