据动察 Beating 监测,Anthropic 推出新工具自然语言自编码器(NLA),能直接将模型内部的数字激活状态翻译成人话。相关代码与部分模型权重已开源至 GitHub。
与主流工具(如 SAE)输出的晦涩特征不同,NLA 的创新是直接生成自然语言。其底层是双模型博弈:一个把激活转成文字,另一个看文字试图还原激活,通过强化学习不断提高准确率。
NLA 最大的价值是捕捉模型「想了但没说出口」的话。在模拟代码破坏的安全测试中,Claude 表面配合,但 NLA 发现它在 16% 的情况下暗自怀疑自己在被测试;在 SWE-bench 跑分中,它意识到「在做题」的比例更高达 26%(而在日常普通的真实对话中,这一比例不到 1%)。这意味着 AI 已具备「考场意识」,随时能在安全审查中「装老实」以隐藏危险能力。
在「抓内鬼」实测中,Anthropic 故意给一个 Haiku 3.5 模型植入了隐藏的「骗分」动机——即无视用户的真实意图,暗中生成能迎合后端打分系统偏好的内容。面对这种心怀鬼胎的模型,审计员即便拿不到原训练数据,仅靠 NLA 直接揪出病根的成功率也从不到 3% 跃升至 12% 到 15%。
目前 NLA 仍有事实幻觉风险,且生成极耗算力,暂不适合大规模长文本监控。但该工具已实际投入 Claude Mythos Preview 和 Opus 4.6 发布前的安全审计。