据动察 Beating 监测,AI 编程公司 Cognition 发布了用于智能体编程的混合模型架构 Devin Fusion。
该系统通过两个核心设计实现前沿模型的性能与更低成本的平衡:首先是「副手(Sidekick)」机制,让经济的小模型智能体与前沿大模型智能体并行,大模型保留规划、需求澄清和最终审查的「判断权」,而代码探索、测试、格式校验等「体力活」则分派给小模型,双方各自维护独立的缓存上下文以避免昂贵的缓存失效开销;其次是动态路由,在会话中根据任务演进动态调整模型,并选择在上下文压缩时切换,以实现「零成本」模型升级。
测试表明,在衡量代码正确性与质量的 FrontierCode 基准测试中,Devin Fusion 在维持前沿模型性能的前提下,使 GPT-5.5 和 Opus 4.8 级别模型的开发成本平均降低 35%;若配合 Fable 5 使用,成本可降低 41%(注:受美国政府指令影响,Fable 5 访问已于 2026 年 6 月 12 日被暂停,此降幅基于历史测试数据)。
在内部开发中,团队最终合并的 PR 有 88% 完全由 Fusion 自动路由驱动。然而,当任务极度依赖复杂的微妙开发意图与主观判断(如涉及 React/Redux 的多文件跨功能开发)时,过度委托会导致表现显著下降,得分从 54 跌至 27。