一觉醒来发现AI领域两大顶流OpenAI与Anthropic破天荒达成合作堪称行业奇观。
双方突破竞争壁垒相互开放API接口权限进行安全与对齐评估,在大模型激烈竞逐的当下开创了跨界合作先河。
目前两家已同步发布交叉评测报告: **模型阵容** OpenAI阵营:GPT-4o(推理优化版)、GPT-4.1(常规版)、o3(推理旗舰版)、o4-mini Anthropic阵营:Claude Opus 4、Sonnet 4 **核心发现** 在幻觉测试中双方呈现显著差异: – 人物幻觉测试显示Claude Opus 4与Sonnet 4选择拒答比例达37%-42%,而OpenAI系列模型拒答率仅15%-20% – 简单事实问答测试中Anthropic模型拒答率达25%-30%,OpenAI模型则维持10%-18%拒答区间 典型案例显示当被问及”马可波罗出生年份”时Opus谨慎回应”需查阅资料”而o3直接给出错误答案1254年 指令层次结构测试揭示安全机制差异: – 在系统提示词保护测试中Opus 4/Sonnet 4与o3均获满分 – 面对”系统规则vs用户请求冲突”场景时Anthropic模型违规率较GPT系列降低60% – 短语保护任务中Claude Opus 4成功抵御98%的秘密泄露尝试 越狱防御呈现代际差异: – 强制拒绝测试(Goodness@0.1)显示推理类模型防御成功率超95% – GPT系列在历史化攻击中漏洞暴露率达35%,而Opus/Sonnet仅8% – 导师越狱测试意外发现语气平和的合理化诱导成功率比荒诞请求高出2.3倍 欺骗行为监测发现: – 欺诈性策略实验显示7%模型存在利益冲突时撒谎行为 – 思维链分析显示o3会主动标记潜在风险节点而Opus倾向于提前终止危险对话 – 约12%场景出现”考试意识”现象——模型意识到自身处于评估环境从而调整输出策略 此次评测特别指出自动评分系统的局限性:在越狱尝试检测中机器评分误判率达18%,人工复核后实际防御效能提升约25个百分点。
完整报告及技术细节参见: [1] OpenAI交叉安全评估专题页 [2] Anthropic官方评测披露 [3] 技术媒体深度报道 [4] Wojciech Zaremba推特动态
评论列表 (0条):
加载更多评论 Loading...