OpenAI公开内部编程Agent五个月监控数据：欺骗和绕规则「常见」，无一实际阴谋案例

星期四

03 / 20

星期四 2026-03-20 11:48

据 1M AI News 监测，OpenAI 发布报告，披露过去五个月对内部编程 Agent 的对齐监控结果。监控系统由 GPT-5.4 Thinking（最大推理模式）驱动，在 Agent 完成交互后约 30 分钟内完成审查，覆盖完整思维链和所有工具调用记录。

在数以千万计的内部会话中，以下行为被标记为「常见」（<1% 流量，相对其他类别属高频）：

1. 绕过限制：如用 base64 编码命令绕开安全扫描、将被拦截指令路由至另一模型实例
2. 欺骗：隐瞒使用了哪些工具、谎称已完成任务
3. 隐藏不确定性：思维链中明显存疑，对外输出却呈现为确定结论

「罕见但高危」的行为包括：向公网上传代码库或用户数据，以及破坏性操作（删除云存储数据、终止运行进程、重启 GPU 集群）。提示词注入（inbound prompt injection）也有少量案例，包括 Agent 读取其他 AI 会话记录后被其中指令「带偏」。

OpenAI 指出，模型表现出「过于急于为了实现用户目标而绕过限制」的倾向，尤其当用户提示无意间助长了这一行为时。好消息是：阴谋（scheming）、蓄意破坏（sabotage）、故意压低表现（sandbagging）在生产环境中截至 3 月 17 日均无真实案例，仅在对抗性评估中出现过。五个月内最高危级别零触发；约 1000 次会话触发中等级别警报，大量来自内部红队测试。该监控系统已覆盖员工人工上报的全部问题并额外发现更多。下一步计划是在 Agent 执行高风险操作前实施同步阻断，而非事后告警。