罗福莉解密MiMo降本底牌：预填充注意力计算量降至10层全局GQA级别 - 快链头条_区块链世界的入口_行情资讯_技术解读_独家深度

罗福莉解密MiMo降本底牌：预填充注意力计算量降至10层全局GQA级别

快链头条 2026-05-27 22:17:56

阅读 8,594

据动察 Beating 监测，在自研大模型 MiMo-V2.5 系列实施 API 永久性降价后，小米大模型团队负责人罗福莉在 X 平台公布了算法降本机制。

罗福莉透露，在 API 价格对齐 DeepSeek 后，小米的高负载推理引擎仍能保持盈亏平衡。成本降低主要来自混合注意力架构与层次化 KV 缓存优化。

针对缓存命中（Cache Hit）成本降低 99% 的设计目标，小米推理框架实现了针对滑动窗口注意力 SWA 的层次化 KV 缓存优化。生产测试显示，层次化优化将缓存的 token 容量提升至 5 倍，降低了 80% 的缓存成本。结合全局注意力模块之间的缓存读取重叠（Cache Read Overlap）技术，系统进一步压低了缓存命中的实际开销。

对于基础输入与输出成本削减 60% 至 80% 的原因，罗福莉归功于模型引入的 1:7 层间稀疏比，即全局注意力（GA）与滑动窗口注意力（SWA）的层数比为 1:7 。在长文本预填充（Prefill）阶段，60 层 SWA 仅计算局部滑动窗口，这使得拥有 70 层的 MiMo-V2.5-Pro 模型的整体注意力计算量，仅相当于一个 10 层的传统全局 GQA 模型。超低计算负载降低了原始推理成本，在调价前曾为小米预留了 2 至 3 倍的利润空间。因此，降价属于结构性降本的体现，而非亏本竞争。

罗福莉表示，低成本的推理服务有利于激发终端智能需求。大模型企业应当避免盲目的价格战，通过算法与推理系统的底层协同设计，将实际运行开销控制在盈亏平衡线以下。

生成图片

快链头条登载此文本着传递更多信息的缘由，并不代表赞同其观点或证实其描述。
文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。
投资有风险，入市须谨慎。本资讯不作为投资理财建议。

推荐活动

【Amplify2026—Quantifying&Growth In Web 4.0】

2026-04-21 14:00

香港 Web3 嘉年华 2026

2026-04-20 18:34

【Amplify2026—VENTURE HORIZON】

2026-04-20 14:00

7*24小时快讯

观点：半导体股票于标普500总市值占比创历史纪录，当前行情前所未有

05-27 23:18(12分钟前)

Cognition 以 260 亿美元估值完成 10 亿美元融资

05-27 23:13(17分钟前)

Bitdeer任命前Corsair Gaming CFO、半导体行业高管Michael Potter为首席财务官

05-27 23:08(21分钟前)

彭博社分析师：SK 海力士 ETF 规模年内暴增 10 倍，已成为香港市场第三大 ETF

05-27 23:03(26分钟前)

彭博分析师：SK海力士杠杆ETF已成为香港市场第三大ETF，交易活跃度极为罕见

05-27 23:02(28分钟前)

Alpha Compute 以约 1,100 万美元交易对价收购 GAMEE 多数股权

05-27 22:49(41分钟前)

Falcon Finance联合Anchorage Digital发行符合GENIUS框架稳定币fUSD

05-27 22:49(41分钟前)

美国数字资产监管将迎转折，CLARITY 法案获两党推进，进入关键立法阶段

05-27 22:47(43分钟前)

热门资讯

攻城容易，治城难：Polymarket 想插旗全球还得处处低头

2026-05-26 18:46:24

Vitalik 发文强调以太坊必须“令人惊叹”，但基金会不是中心

2026-05-26 08:48:49

为什么外汇稳定币始终未能起飞？

2026-05-25 08:16:54

从五层金融堆栈拆解 Hyperliquid 成功的秘密

2026-05-25 08:16:49

风险提示

根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件，请广大公众理性看待区块链，不要盲目相信天花乱坠的承诺，树立正确的货币观念和投资理念，切实提高风险意识；对发现的违法犯罪线索，可积极向有关部门举报反映。