【英文长推】2025 年大模型现状报告：进展、瓶颈与未来判断

快链头条 2025-12-31 03:21:15

大模型

阅读 3,126

以下是我认为 2025 年最值得注意的一些「意外」：多个推理模型已经在重要数学竞赛中达到了金牌级别表现（包括 OpenAI 的一款未命名模型、Gemini Deep Think，以及开源权重的 DeepSeekMath-V2）。我并不意外这件事终将发生，但让我惊讶的是，它发生在 2025 年，而不是我原本预期的 2026 年。Llama 4（或者说 Llama 系列整体）几乎在开源权重社区中失宠，而 Qwen 已在受欢迎程度上超越 Llama（以下载量和衍生模型数量衡量，数据来自 Nathan Lambert 的 ATOM 项目）。 Mistral AI 在其最新旗舰模型 Mistral 3 中采用了 DeepSeek V3 架构，该模型于 2025 年 12 月发布。除了 Qwen3 和 DeepSeek R1 / V3.2 之外，开源 SOTA 竞争者明显增多，包括 Kimi、GLM、MiniMax 和 Yi。更便宜、更高效的混合架构已经成为头部实验室的核心优先级（如 Qwen3-Next、Kimi Linear、Nemotron 3），而不再只是由旁系实验室探索。OpenAI 发布了一个开源权重模型（gpt-oss），我在今年早些时候还为此单独写过一篇文章。MCP（加入 Linux Foundation）已经迅速成为 Agent 型 LLM 系统中工具与数据访问的事实标准。我原本以为这个生态至少会碎片化到 2026 年。面向 2026 年的几个预测：我们很可能会看到一个面向消费者、行业级别的扩散式模型，用于低成本、可靠、低延迟的推理，其中 Gemini Diffusion 可能会率先落地。开源权重社区将逐步采用具备本地工具调用能力、且更加 Agent 化的 LLM。RLVR 将从数学和编程扩展到更多领域，例如化学、生物等。传统 RAG 将逐渐不再是文档查询的默认方案。开发者会更依赖更强的长上下文能力，尤其是在更强的小模型逐步成熟的背景下。大量的性能与基准进步将来自工具链优化与推理时扩展，而不是训练过程或模型本体本身。模型进步看起来会更像是系统工程的胜利，而非单点架构突破。【原文为英文】\n原文链接