谷歌公开合成数据引擎Simula，不用真实数据就能从零批量造专用训练集

快链头条 2026-04-17 13:14:05

阅读 8,716

据动察 Beating 监测，谷歌研究团队发表论文公开了 Simula，一个将合成数据生成从「逐条造数据」升级为「设计整个数据集」的框架，论文发表在《Transactions on Machine Learning Research》上。Simula 已在谷歌内部大规模部署，是 Gemma 系列中 ShieldGemma（安全过滤）、MedGemma（医疗）、FunctionGemma（函数调用）等专用模型的主要数据来源，也为 Gemini 安全分类器、Android 通话诈骗检测和 Google Messages 垃圾信息过滤提供训练数据。

现有合成数据方法大多一次只优化一条数据，依赖人工提示词或真实数据作为种子，无法精确控制数据集整体的覆盖范围、难度分布和质量。Simula 完全不需要种子数据，而是让推理模型从零构建整个数据集，分四步独立控制：

1. 全局多样性：推理模型将目标领域递归拆解为层级知识树（如网络安全威胁的完整分类体系），以此为骨架确保数据覆盖长尾场景
2. 局部多样性：在每个知识节点下生成多种不同场景和表述，防止同一概念千篇一律
3. 复杂化：可配置比例地将部分场景提升难度，独立调节数据集的难度分布
4. 质量控制：双评审员机制独立判断每条数据的正确性，抵消模型倾向于认同看似合理答案的偏差

研究团队用 Gemini 2.5 Flash 做教师模型、Gemma-3 4B 做学生模型，在网络安全、法律推理、小学数学（GSM8k）、多语言学术知识（Global MMLU）五个领域各生成最多 51.2 万条数据进行测试。完整 Simula 流程在所有领域均优于简化方案，但没有通用配方：高难度数据在数学推理上带来 10% 的准确率提升，在法律推理上反而拖累表现，原因是教师模型在该领域能力较弱，生成的高难度数据质量不可靠。更关键的发现是，Simula 用更少的数据达到了更高的下游性能，数据质量而非数量在驱动模型进步。

生成图片