提速4倍且不爆显存,MIT与英伟达发布Lightning OPD:砍掉大模型蒸馏的实时教师服务

快链头条 2026-05-12 19:00:49
阅读 3,136
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,NVIDIA 与 MIT 研究团队发布了新的大语言模型后训练框架 Lightning OPD(离线同策略蒸馏)。这项技术通过预先离线计算教师模型的对数概率(log-probabilities),彻底砍掉了传统蒸馏训练中必须全程保持在线的实时教师服务,将训练效率提升了 4 倍。

此前,标准的同策略蒸馏(OPD)要求在一台机器上同时运行学生和教师模型。当模型变大时,这种做法极易导致显存溢出(OOM)。Lightning OPD 把所有 GPU 算力都释放给了学生模型。在单节点 8 张 H100 显卡的测试中,Lightning OPD 成功跑通了对 Qwen3-30B-A3B-Base(总参数 300 亿的大型 MoE 模型)的蒸馏,在 AIME 2024 测试中拿到 71.0 分;作为对比,标准 OPD 在同样的硬件配置下直接报 OOM。在更小的 Qwen3-8B 规模上,该框架仅耗时 30 个 GPU 小时就达到了 69.9 分。

研究团队在论文中指出了实现离线蒸馏的一个隐藏前置条件:「教师一致性」。学生模型在监督微调(SFT)和后续的蒸馏阶段,必须使用同一个教师模型。如果不遵守这个原则,梯度的方向就会出现偏差,最终拖垮模型的表现。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。