DeepSeek与小米联手开创百万上下文零成本时代,Agent场景加速普及

快链头条 2026-05-27 14:16:51
阅读 2,563
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,继阿里 Qwen 团队为 Qwen3.7-Max 开启最高减免 80% 输入成本的隐式缓存后,小米宣布永久降价自研 MiMo-V2.5 系列 API,与 DeepSeek V4 全系列定价完全对齐。旗舰型号的输入缓存命中价格同为每百万 tokens 0.0036 美元,未命中为 0.435 美元,输出为 0.87 美元。对齐动作旨在拦截全球开发者流量,全面加速智能体 Agent 场景普及。

在 4 月 24 日发布后的一个月里,DeepSeek V4 Flash 以 7.99 万亿 tokens 的消耗量登顶 OpenRouter 月度榜首,V4 Pro 跻身前十。在 Cursor 与 Claude Code 等高频读取代码库的 Agent 编程场景下,得益于 99% 的前缀缓存率,开发者使用 Pro 模型消耗 8000 万 tokens 仅需 4 元人民币,使用 Flash 模型单日消耗 278 亿 tokens 仅需 160 美元。

作为对比,阿里 Qwen3.7-Max 的自动隐式缓存仅提供 80% 折扣,显式缓存则面临 125% 的首次创建溢价与 5 分钟的生存周期。高额创建溢价与短暂驻留,在技术上暗示了系统缓存构建与保留开销高,单位 token 计算负荷与 KV 缓存占用限制了让利空间。

小米与 DeepSeek 敢于降价,得益于底层的算法红利。在 100 万 tokens 的推理中,DeepSeek V4 依靠压缩稀疏注意力 CSA 与强压缩注意力 HCA,将推理算力 FLOPs 降至上一代的 27%,KV 缓存空间降至 10%,较传统 GQA 模型缩减超百倍。小米 MiMo-V2.5-Pro 则在 1.02T 总参数中仅激活 4.1%(42B),交错堆叠滑动窗口 SWA 与全局注意力 GA,将长上下文 KV 缓存开销降低 7 倍,配合多 token 预测 MTP 将输出吞吐量提升 3 倍。两套方案均在算法层面压榨了资源,宣告了低成本普及时代的到来。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。