【英文长推】2025 年大模型现状报告:进展、瓶颈与未来判断

快链头条 2025-12-31 03:21:15
大模型
阅读 3,126
二维码
微信扫一扫,分享此文章
以下是我认为 2025 年最值得注意的一些「意外」:多个推理模型已经在重要数学竞赛中达到了金牌级别表现(包括 OpenAI 的一款未命名模型、Gemini Deep Think,以及开源权重的 DeepSeekMath-V2)。我并不意外这件事终将发生,但让我惊讶的是,它发生在 2025 年,而不是我原本预期的 2026 年。Llama 4(或者说 Llama 系列整体)几乎在开源权重社区中失宠,而 Qwen 已在受欢迎程度上超越 Llama(以下载量和衍生模型数量衡量,数据来自 Nathan Lambert 的 ATOM 项目)。 Mistral AI 在其最新旗舰模型 Mistral 3 中采用了 DeepSeek V3 架构,该模型于 2025 年 12 月发布。除了 Qwen3 和 DeepSeek R1 / V3.2 之外,开源 SOTA 竞争者明显增多,包括 Kimi、GLM、MiniMax 和 Yi。更便宜、更高效的混合架构已经成为头部实验室的核心优先级(如 Qwen3-Next、Kimi Linear、Nemotron 3),而不再只是由旁系实验室探索。OpenAI 发布了一个开源权重模型(gpt-oss),我在今年早些时候还为此单独写过一篇文章。MCP(加入 Linux Foundation)已经迅速成为 Agent 型 LLM 系统中工具与数据访问的事实标准。我原本以为这个生态至少会碎片化到 2026 年。 面向 2026 年的几个预测:我们很可能会看到一个面向消费者、行业级别的扩散式模型,用于低成本、可靠、低延迟的推理,其中 Gemini Diffusion 可能会率先落地。开源权重社区将逐步采用具备本地工具调用能力、且更加 Agent 化的 LLM。RLVR 将从数学和编程扩展到更多领域,例如化学、生物等。传统 RAG 将逐渐不再是文档查询的默认方案。开发者会更依赖更强的长上下文能力,尤其是在更强的小模型逐步成熟的背景下。大量的性能与基准进步将来自工具链优化与推理时扩展,而不是训练过程或模型本体本身。模型进步看起来会更像是系统工程的胜利,而非单点架构突破。【原文为英文】\n原文链接

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

推荐活动
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。