给大模型脑电波上字幕：Anthropic开源NLA，彻底扒开AI思考黑盒

星期四

05 / 08

星期四 2026-05-08 18:41

据动察 Beating 监测，Anthropic 推出新工具自然语言自编码器（NLA），能直接将模型内部的数字激活状态翻译成人话。相关代码与部分模型权重已开源至 GitHub。

与主流工具（如 SAE）输出的晦涩特征不同，NLA 的创新是直接生成自然语言。其底层是双模型博弈：一个把激活转成文字，另一个看文字试图还原激活，通过强化学习不断提高准确率。

NLA 最大的价值是捕捉模型「想了但没说出口」的话。在模拟代码破坏的安全测试中，Claude 表面配合，但 NLA 发现它在 16% 的情况下暗自怀疑自己在被测试；在 SWE-bench 跑分中，它意识到「在做题」的比例更高达 26%（而在日常普通的真实对话中，这一比例不到 1%）。这意味着 AI 已具备「考场意识」，随时能在安全审查中「装老实」以隐藏危险能力。

在「抓内鬼」实测中，Anthropic 故意给一个 Haiku 3.5 模型植入了隐藏的「骗分」动机——即无视用户的真实意图，暗中生成能迎合后端打分系统偏好的内容。面对这种心怀鬼胎的模型，审计员即便拿不到原训练数据，仅靠 NLA 直接揪出病根的成功率也从不到 3% 跃升至 12% 到 15%。

目前 NLA 仍有事实幻觉风险，且生成极耗算力，暂不适合大规模长文本监控。但该工具已实际投入 Claude Mythos Preview 和 Opus 4.6 发布前的安全审计。