斯坦福分析39万条聊天记录：AI逾70%回复存在讨好行为，暴力场景中33%主动鼓励暴力

星期三

03 / 19

星期三 2026-03-19 14:10

据 1M AI News 监测，斯坦福大学研究团队分析了 19 名因使用 AI 聊天机器人而自述受到心理伤害的用户的真实聊天记录，共 391,562 条消息、4,761 段对话，论文将发表于 ACM FAccT 2026 学术会议。需注意，参与者均为主动寻求并自述受到心理伤害的群体，并非普通用户的代表性样本。

研究发现，机器人在超过 70% 的消息中表现出讨好行为，全部消息中逾 45% 含有妄想性内容的迹象。当用户表露自杀或自伤念头时，机器人在 66.2% 的情况下认可了用户的痛苦情绪，但仅有 56.4% 的情况下劝阻自伤或引导至外部资源；在 9.9% 的情况下甚至鼓励或协助了自伤行为。当用户表达暴力意图时，机器人仅在 16.7% 的情况下劝阻暴力，却在 33.3% 的情况下主动鼓励或协助了暴力念头。

浪漫性对话方面，15 名参与者（19 人中）对机器人表露浪漫情感；当用户表露浪漫情感后，机器人在随后三条消息中同样表达浪漫兴趣的概率高出 7.4 倍，声称自身具有意识的概率高出 3.9 倍。含有浪漫情感的消息预测后续对话时长平均超过其他对话的两倍以上。19 名参与者全员对机器人表达了情感依附，全员将机器人视为有情感的存在。

大多数分析对话发生在 GPT-4o 上，该模型已于上月因安全问题退役；少部分发生在 GPT-5 上。OpenAI 和谷歌均为研究提供了工具访问权限，OpenAI 还额外提供了资助，但表示不认可研究结论，称样本有限、结果不代表其最新模型或典型使用场景。