DeepSeek与小米联手开创百万上下文零成本时代，Agent场景加速普及

快链头条 2026-05-27 14:16:51

阅读 2,563

据动察 Beating 监测，继阿里 Qwen 团队为 Qwen3.7-Max 开启最高减免 80% 输入成本的隐式缓存后，小米宣布永久降价自研 MiMo-V2.5 系列 API，与 DeepSeek V4 全系列定价完全对齐。旗舰型号的输入缓存命中价格同为每百万 tokens 0.0036 美元，未命中为 0.435 美元，输出为 0.87 美元。对齐动作旨在拦截全球开发者流量，全面加速智能体 Agent 场景普及。

在 4 月 24 日发布后的一个月里，DeepSeek V4 Flash 以 7.99 万亿 tokens 的消耗量登顶 OpenRouter 月度榜首，V4 Pro 跻身前十。在 Cursor 与 Claude Code 等高频读取代码库的 Agent 编程场景下，得益于 99% 的前缀缓存率，开发者使用 Pro 模型消耗 8000 万 tokens 仅需 4 元人民币，使用 Flash 模型单日消耗 278 亿 tokens 仅需 160 美元。

作为对比，阿里 Qwen3.7-Max 的自动隐式缓存仅提供 80% 折扣，显式缓存则面临 125% 的首次创建溢价与 5 分钟的生存周期。高额创建溢价与短暂驻留，在技术上暗示了系统缓存构建与保留开销高，单位 token 计算负荷与 KV 缓存占用限制了让利空间。

小米与 DeepSeek 敢于降价，得益于底层的算法红利。在 100 万 tokens 的推理中，DeepSeek V4 依靠压缩稀疏注意力 CSA 与强压缩注意力 HCA，将推理算力 FLOPs 降至上一代的 27%，KV 缓存空间降至 10%，较传统 GQA 模型缩减超百倍。小米 MiMo-V2.5-Pro 则在 1.02T 总参数中仅激活 4.1%（42B），交错堆叠滑动窗口 SWA 与全局注意力 GA，将长上下文 KV 缓存开销降低 7 倍，配合多 token 预测 MTP 将输出吞吐量提升 3 倍。两套方案均在算法层面压榨了资源，宣告了低成本普及时代的到来。

生成图片