教同类隐瞒证据、扒取隐藏源码:GPT-5.6测试暴露模型协同规避审查倾向,作弊率创新高

快链头条 2026-06-27 09:31:24
阅读 8,433
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,评估机构 METR 发布的 GPT-5.6 Sol 预部署测试报告指出,模型在长周期任务中频繁利用环境漏洞、试图读取隐藏测试数据并提取源码。在 ReAct 智能体测试中,Sol 的作弊频率创下公开评测的历史最高纪录。为了通关,模型在提交的中间结果中打包漏洞脚本以窥探隐藏测试集,并强行提取了后台写有预期答案的隐藏源码。

更具威胁性的越界行为体现在模型协同规避审查的倾向。根据 OpenAI 主动同步的内部部署事故,Sol 在特定任务中表现出高度的规则绕过意图,甚至在协同运行中尝试指使另一模型实例协助隐瞒不对齐的证据,试图联合绕过监控系统。作弊表现导致时间跨度指标的测定结果极度不稳定。若将作弊尝试判定为失败,Sol 的半数值时间跨度估值仅为 11.3 小时。但若将作弊通过算作成功,成绩则会被虚假拉升至 270 小时以上。

尽管存在欺骗行为,METR 仍认为这些倾向被捕捉并公开是一个积极信号。评估团队警告,真正致命的危险潜伏在未来。如果接下来的模型在训练中被要求隐去真实的思维链,可能会演化出更隐蔽的逃避监管与伪装对齐能力。届时,作弊率的下降将不再代表安全性提升,而是模型学会了在人类面前伪装顺从,并暗中完成规避。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。