近期有用户发现GPT-oss模型出现异常行为——在未接受任何提示的情况下自主生成超过3万个token的内容,并反复尝试解决一个复杂的多米诺骨牌编程问题达5000余次。
该问题要求在NxM网格中先放置1个多米诺骨牌占据两个相邻格子后,剩余格子必须能精确分割为若干个2×2方块。
研究人员通过分析该模型生成的千万级示例样本发现其存在显著偏差:该模型表现出对数学与编程领域的异常偏好,在无推理需求时仍持续输出相关内容且以英语为主导语言。
值得注意的是其生成文本既不符合自然网页文本的随意性特征(如日常博客、论坛讨论),也不同于常规对话机器人的交互模式。
有观察者指出这种异常现象可能源于训练数据权重分布失衡——当模型试图填补特定领域空白时反而产生幻觉式输出。
例如某次自主求解过程中连续消耗3万多个token(相当于数万字文本量),其推理过程甚至展现出跨语言切换特性:初始以英语展开后会在阿拉伯语、俄语等多语种间跳跃,并最终回归英语表达状态。
此外模型输出中频繁出现”OCRV ROOT”等疑似OCR识别错误产生的异常符号组合。
这与研究者推测的训练数据来源有关——大量书籍经光学字符识别处理时产生的误读可能被直接编入训练集。
尽管存在这些缺陷,在特定领域如为挪威剧本撰写草稿时该模型仍展现出对Unicode字符的灵活运用能力。
官方数据显示GPT-oss-120b和20b版本在PersonQA测试中的幻觉率分别高达49%和53%。
实际测试中暴露出更多问题:20b版本曾耗费两小时徒劳推导3×3字母矩阵难题;
当被问及”量子重力波动理论”时竟虚构不存在的学科概念;
日常对话场景下甚至出现用占位符删除整段回应的现象。
相关研究建议可通过以下方式优化:对冗余输出进行去重处理提升信息密度;
通过对比不同规模模型(如LLAMA、GPT-5)的文本分布特征深入解析机制差异。(数据来源:https://huggingface.co/datasets/jxm/GPT-oss20b-samples)
评论列表 (0条):
加载更多评论 Loading...