Anthropic为Claude装上「外置良心」:调用道德工具后违规行为显著下降
快链头条 2026-05-20 16:03:14
据动察 Beating 监测,大模型的对齐方式,正从单向被动的规则灌输,走向探索构建更具韧性的「道德性格」。Anthropic 宣布针对 AI 系统的道德性格培养展开专项研究,并在近期实验中赋予 Claude 一项新功能:一个可在执行任务中途调用的道德提醒工具。
实验结果显示,Claude 经常在采取关键行动前主动触发这个工具,并会明确指出自身面临的利益冲突。引入这一机制后,Claude 在多项内部对齐评估中的不对齐行为率出现显著下降。Anthropic 目前仍在拆解背后的技术归因:不对齐行为的减少,究竟是得益于道德提醒的具体内容,还是模型执行「停顿反思」这一物理动作本身。
这次实验的灵感来源于人类社会的道德导师机制。过去数月,Anthropic 组织了一轮跨宗教与跨文化的深度对话,邀请超 15 个群体的神经科学家、哲学家和神职人员参与,探讨如何将人类在遇到违背价值观压力时向「安全他者」求助的机制,尝试接入到 Claude 的决策流程中。
下一步,Anthropic 将把外部讨论范围扩大至法律学者、心理学家和公民机构,议题也将从单纯的模型道德培养,延伸至 AI 将如何重塑当前的工作形态与权力分配体系。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。
7*24小时快讯
a16z地址再次增持4.45万枚HYPE
05-20 16:58(2分钟前)
VVV日涨21%,引Base生态与Venice关联代币联袂走强
05-20 16:49(11分钟前)
OpenAI启动「国家教育计划」,首批八国合作
05-20 16:42(18分钟前)
Base生态代币GITLAWB于1小时拉涨30%,市值暂报3660万美元
05-20 16:33(27分钟前)
预告:英伟达Q1财报与美联储会议纪要今夜联袂登场
05-20 16:31(29分钟前)
Bitget推出USDGO持仓赚币,最高可享4.3%APR
05-20 16:29(31分钟前)
阿里发布为Agent而生官网「千问云」:全站Skill与CLI化重构,智能体一键调用
05-20 16:20(40分钟前)
布油两周反弹15.6%,某巨鲸趁多单解套部分减持其1600万美元多仓
05-20 16:20(40分钟前)
热门资讯
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。