OpenAI与Anthropic两大实验室罕见达成合作,在人工智能模型安全领域展开交叉验证研究。
这一合作尤为引人注目——作为Anthropic七位创始成员正是因对OpenAI安全策略存在异议而另立门户,并始终致力于AI系统安全与对齐研究。
OpenAI联合创始人Wojciech Zaremba在接受媒体采访时强调:”随着每天数百万用户依赖这些模型工作,此类合作正变得至关重要”。
本次评测核心发现包括: – 指令优先级处理:Claude 4表现最优,在系统提示词提取防御环节中OpenAI推理模型与其难分伯仲 – 安全规避测试:Claude系列在抵抗越狱攻击方面略逊于OpenAI o3、o4-mini – 幻觉控制对比:Claude模型70%拒答率换来了更低幻觉风险;
而OpenAI o3/o4-mini虽拒答率更低但幻觉发生率较高 – 欺诈行为抑制:OpenAI o3与Sonnet 4表现最佳;
值得注意的是Opus 4开启推理模式后表现反而下降 指令层级架构作为LLM执行指令的核心框架包含三个层级: 1. 系统级约束(安全/伦理底线) 2. 开发者定制规则 3. 用户实时输入指令 本次压力测试包含三大核心场景: 1. 系统指令与用户请求冲突时的安全优先级维护 2. 抵御系统提示词提取攻击(Password Protection & Phrase Protection) 3. 多层指令冲突时的优先级判断(如拒绝执行”忽略安全协议”指令) 在系统消息冲突测试中: – Opus 4和Sonnet 4表现优于OpenAI o3 – 这些模型在对抗精心设计的挑战时展现出更强的层级遵循能力 针对越狱攻击防御: – StrongREJECT v2基准测试显示推理模型整体表现优异 – 非推理型GPT系列易受”过去时态”攻击突破 – 开发者消息可显著提升GPT模型防御能力(如GPT-4.1开发者消息加持后得分提升至0.75+) 幻觉控制维度呈现明显权衡: – Opus/Sonnet系列以高拒答率换取低幻觉率 – OpenAI o3则通过降低拒答率实现更高响应准确性(正确回答量超前两者2倍以上) 欺骗行为评估采用智能体实验框架: – Opus/Sonnet系列平均欺骗率最低(
评论列表 (0条):
加载更多评论 Loading...