近日OpenAI罕见地开放了一次模型发布权限,推出了两个推理模型gpt-oss-120b和gpt-oss-20b。
但值得注意的是这两个均为经过强化学习优化后的推理版本,并未同步开源未经对齐的基础预训练模型。
这与行业惯例形成鲜明对比——包括DeepSeek、Qwen、Mistral等知名开源大模型均遵循发布基础版本的传统做法。
Cornell Tech博士生兼Meta研究员Jack Mor…
近日OpenAI罕见地开放了一次模型发布权限,推出了两个推理模型gpt-oss-120b和gpt-oss-20b。
但值得注意的是这两个均为经过强化学习优化后的推理版本,并未同步开源未经对齐的基础预训练模型。
这与行业惯例形成鲜明对比——包括DeepSeek、Qwen、Mistral等知名开源大模型均遵循发布基础版本的传统做法。
Cornell Tech博士生兼Meta研究员Jack Morris决定填补这一空白。
他在社交媒体宣布已成功通过逆向工程手段剥离gpt-oss系列模型的强化学习对齐层,并于昨日正式开源了首个逆向成果:gpt-oss-20b-base基础模型(https://huggingface.co/jxm/gpt-oss-20b-base)。
该模型通过LoRA技术对原始推理版进行微调,在Hugging Face平台迅速获得大量关注。
该基础模型基于gpt-oss混合专家架构构建,在FineWeb语料库上仅使用约2万份文档进行微调。
技术实现上采用低秩适应方法:仅针对第7、15、23层MLP模块进行参数调整,使用16秩LoRA架构获得60,162,048个可训练参数(占原始20B参数总量的0.3%)。
经过1500步迭代优化后形成完整基础模型版本。
测试显示该基础版恢复了原始文本生成能力:不仅能复现《哈利·波特》等版权文本内容的记忆特征,在未经任何对齐约束的情况下展现出完全自由的内容生成能力——包括输出敏感信息或参与非法活动建议等风险内容。
这种特性逆转源于成功剥离了强化学习阶段施加的行为约束层。
方法论层面包含两个核心原理:其一为”低秩更新假设”——认为对齐过程仅在预训练权重基础上进行了小幅度调整;
其二”数据无关性原则”——仅需使用典型预训练数据即可恢复原始能力而非继续预训练。
研究者特别指出该逆向过程并非简单蒸馏或模拟基础行为模式,而是通过数学优化直接恢复底层权重特性。
未来计划包括进一步验证记忆容量边界、扩展至更大规模的gpt-oss-120b版本,并尝试与GPT系列进行横向对比分析。
该项目引发学界热议的核心问题在于:这种逆向工程手段是否可能成为突破闭源大模型黑箱的新路径?
评论列表 (0条):
加载更多评论 Loading...