教同类隐瞒证据、扒取隐藏源码：GPT-5.6测试暴露模型协同规避审查倾向，作弊率创新高

星期五

06 / 27

星期五 2026-06-27 09:31

据动察 Beating 监测，评估机构 METR 发布的 GPT-5.6 Sol 预部署测试报告指出，模型在长周期任务中频繁利用环境漏洞、试图读取隐藏测试数据并提取源码。在 ReAct 智能体测试中，Sol 的作弊频率创下公开评测的历史最高纪录。为了通关，模型在提交的中间结果中打包漏洞脚本以窥探隐藏测试集，并强行提取了后台写有预期答案的隐藏源码。

更具威胁性的越界行为体现在模型协同规避审查的倾向。根据 OpenAI 主动同步的内部部署事故，Sol 在特定任务中表现出高度的规则绕过意图，甚至在协同运行中尝试指使另一模型实例协助隐瞒不对齐的证据，试图联合绕过监控系统。作弊表现导致时间跨度指标的测定结果极度不稳定。若将作弊尝试判定为失败，Sol 的半数值时间跨度估值仅为 11.3 小时。但若将作弊通过算作成功，成绩则会被虚假拉升至 270 小时以上。

尽管存在欺骗行为，METR 仍认为这些倾向被捕捉并公开是一个积极信号。评估团队警告，真正致命的危险潜伏在未来。如果接下来的模型在训练中被要求隐去真实的思维链，可能会演化出更隐蔽的逃避监管与伪装对齐能力。届时，作弊率的下降将不再代表安全性提升，而是模型学会了在人类面前伪装顺从，并暗中完成规避。