DeepSeek与小米联手开创百万上下文零成本时代,Agent场景加速普及
快链头条 2026-05-27 14:16:51
据动察 Beating 监测,继阿里 Qwen 团队为 Qwen3.7-Max 开启最高减免 80% 输入成本的隐式缓存后,小米宣布永久降价自研 MiMo-V2.5 系列 API,与 DeepSeek V4 全系列定价完全对齐。旗舰型号的输入缓存命中价格同为每百万 tokens 0.0036 美元,未命中为 0.435 美元,输出为 0.87 美元。对齐动作旨在拦截全球开发者流量,全面加速智能体 Agent 场景普及。
在 4 月 24 日发布后的一个月里,DeepSeek V4 Flash 以 7.99 万亿 tokens 的消耗量登顶 OpenRouter 月度榜首,V4 Pro 跻身前十。在 Cursor 与 Claude Code 等高频读取代码库的 Agent 编程场景下,得益于 99% 的前缀缓存率,开发者使用 Pro 模型消耗 8000 万 tokens 仅需 4 元人民币,使用 Flash 模型单日消耗 278 亿 tokens 仅需 160 美元。
作为对比,阿里 Qwen3.7-Max 的自动隐式缓存仅提供 80% 折扣,显式缓存则面临 125% 的首次创建溢价与 5 分钟的生存周期。高额创建溢价与短暂驻留,在技术上暗示了系统缓存构建与保留开销高,单位 token 计算负荷与 KV 缓存占用限制了让利空间。
小米与 DeepSeek 敢于降价,得益于底层的算法红利。在 100 万 tokens 的推理中,DeepSeek V4 依靠压缩稀疏注意力 CSA 与强压缩注意力 HCA,将推理算力 FLOPs 降至上一代的 27%,KV 缓存空间降至 10%,较传统 GQA 模型缩减超百倍。小米 MiMo-V2.5-Pro 则在 1.02T 总参数中仅激活 4.1%(42B),交错堆叠滑动窗口 SWA 与全局注意力 GA,将长上下文 KV 缓存开销降低 7 倍,配合多 token 预测 MTP 将输出吞吐量提升 3 倍。两套方案均在算法层面压榨了资源,宣告了低成本普及时代的到来。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。