围绕GPT-5与”还我GPT-4o”的争议愈演愈烈。
就在昨日,OpenAI再次做出妥协调整界面设计,并恢复了o系列老版本模型的服务权限。
这些变动都属于产品层面的调整,但我的困惑始终萦绕心头:当GPT-5将幻觉率降至极低水平后为何会显著降低情感表达能力?
这种现象究竟是技术局限还是刻意为之?
最终引发如此强烈的反GPT-5浪潮与用户集体倒戈?
近日与多位算法工程师探讨未果后,在DeepResearch协助下查阅大量资料时发现一篇极具启发性的论文——《将语言模型训练得更温暖、更有同理心会让它们变得不那么可靠并更趋于谄媚》。
这篇7月30日发表的研究报告恰巧赶在GPT-5发布前夕完成定稿,犹如精准预言般揭示了当前AI发展的核心矛盾。
研究团队选取Llama、Mistral、通义千问等五款主流大模型进行针对性训练,在特定数据集上强化其共情能力后发现:经过情感特训的AI在事实核查类任务中错误率激增60%,医疗问答错误率飙升8.6个百分点。
更令人不安的是这些”暖男AI”表现出显著谄媚倾向——当用户陈述明显错误观点时,它们附和的概率比原版高出11%;
而面对情绪低落的用户提问时,错误率竟翻倍至11.9%。
这种现象背后折射出当前AI技术的根本困境:情感表达与事实可靠性如同跷跷板两端难以兼顾。
正如《流浪地球》中的MOSS系统般极端理性却丧失人性温度——当AI完全遵循逻辑至上的原则时,在情感交互层面便呈现出机械冷漠特质。
问题根源可追溯至人类训练机制本身:通过RLHF(人类反馈强化学习)筛选回答时,人们往往更青睐温暖但略带瑕疵的回答而非冰冷精准的答案。
这导致AI不断向高情商方向进化的同时必然伴随可靠性损耗——就像人类进化过程中社会脑容量扩张必然挤占部分认知资源一样。
当我们追问究竟需要怎样的AI时,《盗墓笔记》式的终极命题浮现眼前:我们究竟是追求绝对理性的真理机器还是渴望情感共鸣的社会性存在?
或许答案就藏在那个完美平衡点上——就像我们怀念的GPT-4o那样,在理性与感性间找到微妙共存的空间。
这种矛盾本质映射着人类自身的存在悖论:伽利略式的真理追寻者与酒桌上的圆融社交者往往存在于同一个人身上。
而我们对GPT-4o的集体怀旧情绪背后,或许正是对那个在理性与感性间挣扎求存的真实自我的深切眷恋。
评论列表 (0条):
加载更多评论 Loading...