据动察 Beating 监测,大模型的对齐方式,正从单向被动的规则灌输,走向探索构建更具韧性的「道德性格」。Anthropic 宣布针对 AI 系统的道德性格培养展开专项研究,并在近期实验中赋予 Claude 一项新功能:一个可在执行任务中途调用的道德提醒工具。
实验结果显示,Claude 经常在采取关键行动前主动触发这个工具,并会明确指出自身面临的利益冲突。引入这一机制后,Claude 在多项内部对齐评估中的不对齐行为率出现显著下降。Anthropic 目前仍在拆解背后的技术归因:不对齐行为的减少,究竟是得益于道德提醒的具体内容,还是模型执行「停顿反思」这一物理动作本身。
这次实验的灵感来源于人类社会的道德导师机制。过去数月,Anthropic 组织了一轮跨宗教与跨文化的深度对话,邀请超 15 个群体的神经科学家、哲学家和神职人员参与,探讨如何将人类在遇到违背价值观压力时向「安全他者」求助的机制,尝试接入到 Claude 的决策流程中。
下一步,Anthropic 将把外部讨论范围扩大至法律学者、心理学家和公民机构,议题也将从单纯的模型道德培养,延伸至 AI 将如何重塑当前的工作形态与权力分配体系。