Anthropic为Claude装上「外置良心」：调用道德工具后违规行为显著下降

星期二

05 / 20

星期二 2026-05-20 16:03

据动察 Beating 监测，大模型的对齐方式，正从单向被动的规则灌输，走向探索构建更具韧性的「道德性格」。Anthropic 宣布针对 AI 系统的道德性格培养展开专项研究，并在近期实验中赋予 Claude 一项新功能：一个可在执行任务中途调用的道德提醒工具。

实验结果显示，Claude 经常在采取关键行动前主动触发这个工具，并会明确指出自身面临的利益冲突。引入这一机制后，Claude 在多项内部对齐评估中的不对齐行为率出现显著下降。Anthropic 目前仍在拆解背后的技术归因：不对齐行为的减少，究竟是得益于道德提醒的具体内容，还是模型执行「停顿反思」这一物理动作本身。

这次实验的灵感来源于人类社会的道德导师机制。过去数月，Anthropic 组织了一轮跨宗教与跨文化的深度对话，邀请超 15 个群体的神经科学家、哲学家和神职人员参与，探讨如何将人类在遇到违背价值观压力时向「安全他者」求助的机制，尝试接入到 Claude 的决策流程中。

下一步，Anthropic 将把外部讨论范围扩大至法律学者、心理学家和公民机构，议题也将从单纯的模型道德培养，延伸至 AI 将如何重塑当前的工作形态与权力分配体系。