【英文长推】2025 年大模型现状报告:进展、瓶颈与未来判断
快链头条 2025-12-31 03:21:15
大模型
以下是我认为 2025 年最值得注意的一些「意外」:多个推理模型已经在重要数学竞赛中达到了金牌级别表现(包括 OpenAI 的一款未命名模型、Gemini Deep Think,以及开源权重的 DeepSeekMath-V2)。我并不意外这件事终将发生,但让我惊讶的是,它发生在 2025 年,而不是我原本预期的 2026 年。Llama 4(或者说 Llama 系列整体)几乎在开源权重社区中失宠,而 Qwen 已在受欢迎程度上超越 Llama(以下载量和衍生模型数量衡量,数据来自 Nathan Lambert 的 ATOM 项目)。
Mistral AI 在其最新旗舰模型 Mistral 3 中采用了 DeepSeek V3 架构,该模型于 2025 年 12 月发布。除了 Qwen3 和 DeepSeek R1 / V3.2 之外,开源 SOTA 竞争者明显增多,包括 Kimi、GLM、MiniMax 和 Yi。更便宜、更高效的混合架构已经成为头部实验室的核心优先级(如 Qwen3-Next、Kimi Linear、Nemotron 3),而不再只是由旁系实验室探索。OpenAI 发布了一个开源权重模型(gpt-oss),我在今年早些时候还为此单独写过一篇文章。MCP(加入 Linux Foundation)已经迅速成为 Agent 型 LLM 系统中工具与数据访问的事实标准。我原本以为这个生态至少会碎片化到 2026 年。
面向 2026 年的几个预测:我们很可能会看到一个面向消费者、行业级别的扩散式模型,用于低成本、可靠、低延迟的推理,其中 Gemini Diffusion 可能会率先落地。开源权重社区将逐步采用具备本地工具调用能力、且更加 Agent 化的 LLM。RLVR 将从数学和编程扩展到更多领域,例如化学、生物等。传统 RAG 将逐渐不再是文档查询的默认方案。开发者会更依赖更强的长上下文能力,尤其是在更强的小模型逐步成熟的背景下。大量的性能与基准进步将来自工具链优化与推理时扩展,而不是训练过程或模型本体本身。模型进步看起来会更像是系统工程的胜利,而非单点架构突破。【原文为英文】\n原文链接
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。
推荐活动
7*24小时快讯
Arthur Hayes:流动性可能已在11月触底,是时候开始上涨了
12-31 14:32(13分钟前)
MGBX即将开展「元旦幸运挑战」活动,为期一周
12-31 14:31(14分钟前)
「山寨空军车头」LIT空单浮亏转盈后再次加仓,短时增持超200万美元
12-31 14:31(15分钟前)
以太坊充币情绪加剧,过去24小时CEX净流入10.58万枚ETH
12-31 14:30(16分钟前)
2026年美国加密监管关键时间点一览
12-31 14:21(24分钟前)
Binance Alpha新空投即将上线,至少240分可领取
12-31 14:08(37分钟前)
芝商所「重拳出击」,贵金属全线跳水
12-31 13:54(1小时前)
现货黄金失守4300美元/盎司大关
12-31 13:53(1小时前)
热门资讯
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。