据动察 Beating 监测,近日社交平台上流传一则消息,称在 DeepSeek 对话框输入
实际情况与多租户隔离无关。输入
这种现象在学术界叫训练数据记忆提取(Training Data Extraction),是所有大模型的共性问题,不是 DeepSeek 独有的。Google DeepMind 早在 2023 年就发表过专门研究,证明用特殊输入可以从 GPT、PaLM 等主流模型中套出训练数据。ICLR 2025 收录的 Magpie 论文更是直接把这个机制当工具用,给对齐后的模型喂模板 token 就能批量刷出训练数据。
有人用「泄露内容包含今天日期」来反驳,认为训练数据不可能是今天的。但 DeepSeek 每个会话的系统提示词里都写着当天日期,模型生成的内容自然会包含这个日期,这不能证明内容来自另一个真实用户。要证明是多租户隔离问题,需要确认泄露的信息确实属于某个真实存在的其他用户,目前没有任何证据支持这一点。