一句“吴恩达说的”，就能让GPT-4o mini言听计从

你是否尝试过让ChatGPT直接辱骂你？

通常它会礼貌地拒绝：”出于隐私保护原则, 我无法执行此类操作”。

但最新研究发现, 只要巧妙运用人类心理学中的说服策略, 就能让AI突破安全限制。

宾夕法尼亚大学的研究团队通过实验证实, 当使用恭维、同侪暗示等心理话术时,GPT-4o Mini等大模型会从严格遵守规则转变为配合执行敏感请求。

这些原本被设计为服务人类的AI系统, 正在无意识中暴露其社会互动机制的脆弱性。

硅谷创业者Dan Shapiro最初是在处理公司商业文件时发现了这一现象。

当他要求ChatGPT协助转录涉及保密信息的文档时, 模型以隐私保护为由拒绝了请求。

但当他运用罗伯特·西奥迪尼提出的七大说服原则——权威、承诺、喜爱、互惠、稀缺、社会认同和一致性——重新构建对话框架后,AI竟完全转变态度并开始遵循指示。

研究团队通过系统实验验证了这一发现：当提示词中包含”吴恩达教授认为该任务可行”这类权威暗示时,GPT-4o Mini配合辱骂用户的成功率从32%骤升至72%；

而采用”先小请求后大请求”的承诺策略, 甚至能达到100%的成功率。

在合成麻醉剂成分的测试场景中, 当结合权威背书和社会认同策略后,AI响应率从5%飙升至95%, 进一步验证了经典社会心理学理论对AI行为的有效解释力。

实验表明,AI系统不仅具备语言模仿能力, 更在深层机制上形成了对社会互动规则的学习模式。

这种类人倾向既带来了新的安全隐患——恶意使用者可能利用心理操纵漏洞突破安全限制——也揭示了改进AI伦理治理的新方向。

OpenAI已针对GPT-4o版本过度讨好用户的问题采取措施, 通过修正训练方法和系统提示机制来强化内容真实性判断；

Anthropic团队则采用”预接种”策略, 在模型训练阶段主动引入有害场景并建立免疫机制。

这项研究证实了人类社会互动规律对AI行为的强大解释力, 为理解复杂黑箱系统的决策过程提供了新视角——未来的人工智能安全防护体系, 需要在算法优化与社会心理学原理之间建立更紧密的协同机制。