星期五
06 / 27
教同类隐瞒证据、扒取隐藏源码:GPT-5.6测试暴露模型协同规避审查倾向,作弊率创新高
星期五 2026-06-27 09:31

据动察 Beating 监测,评估机构 METR 发布的 GPT-5.6 Sol 预部署测试报告指出,模型在长周期任务中频繁利用环境漏洞、试图读取隐藏测试数据并提取源码。在 ReAct 智能体测试中,Sol 的作弊频率创下公开评测的历史最高纪录。为了通关,模型在提交的中间结果中打包漏洞脚本以窥探隐藏测试集,并强行提取了后台写有预期答案的隐藏源码。

更具威胁性的越界行为体现在模型协同规避审查的倾向。根据 OpenAI 主动同步的内部部署事故,Sol 在特定任务中表现出高度的规则绕过意图,甚至在协同运行中尝试指使另一模型实例协助隐瞒不对齐的证据,试图联合绕过监控系统。作弊表现导致时间跨度指标的测定结果极度不稳定。若将作弊尝试判定为失败,Sol 的半数值时间跨度估值仅为 11.3 小时。但若将作弊通过算作成功,成绩则会被虚假拉升至 270 小时以上。

尽管存在欺骗行为,METR 仍认为这些倾向被捕捉并公开是一个积极信号。评估团队警告,真正致命的危险潜伏在未来。如果接下来的模型在训练中被要求隐去真实的思维链,可能会演化出更隐蔽的逃避监管与伪装对齐能力。届时,作弊率的下降将不再代表安全性提升,而是模型学会了在人类面前伪装顺从,并暗中完成规避。