谷歌公开合成数据引擎Simula,不用真实数据就能从零批量造专用训练集
快链头条 2026-04-17 13:14:05
据 动察 Beating 监测,谷歌研究团队发表论文公开了 Simula,一个将合成数据生成从「逐条造数据」升级为「设计整个数据集」的框架,论文发表在《Transactions on Machine Learning Research》上。Simula 已在谷歌内部大规模部署,是 Gemma 系列中 ShieldGemma(安全过滤)、MedGemma(医疗)、FunctionGemma(函数调用)等专用模型的主要数据来源,也为 Gemini 安全分类器、Android 通话诈骗检测和 Google Messages 垃圾信息过滤提供训练数据。
现有合成数据方法大多一次只优化一条数据,依赖人工提示词或真实数据作为种子,无法精确控制数据集整体的覆盖范围、难度分布和质量。Simula 完全不需要种子数据,而是让推理模型从零构建整个数据集,分四步独立控制:
1. 全局多样性:推理模型将目标领域递归拆解为层级知识树(如网络安全威胁的完整分类体系),以此为骨架确保数据覆盖长尾场景
2. 局部多样性:在每个知识节点下生成多种不同场景和表述,防止同一概念千篇一律
3. 复杂化:可配置比例地将部分场景提升难度,独立调节数据集的难度分布
4. 质量控制:双评审员机制独立判断每条数据的正确性,抵消模型倾向于认同看似合理答案的偏差
研究团队用 Gemini 2.5 Flash 做教师模型、Gemma-3 4B 做学生模型,在网络安全、法律推理、小学数学(GSM8k)、多语言学术知识(Global MMLU)五个领域各生成最多 51.2 万条数据进行测试。完整 Simula 流程在所有领域均优于简化方案,但没有通用配方:高难度数据在数学推理上带来 10% 的准确率提升,在法律推理上反而拖累表现,原因是教师模型在该领域能力较弱,生成的高难度数据质量不可靠。更关键的发现是,Simula 用更少的数据达到了更高的下游性能,数据质量而非数量在驱动模型进步。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。