DeepMind发布AI数学研究助手：多Agent架构击败GPT-5.5Pro，还解出此前「无人能解」难题 - 快链头条_区块链世界的入口_行情资讯_技术解读_独家深度

DeepMind发布AI数学研究助手：多Agent架构击败GPT-5.5Pro，还解出此前「无人能解」难题

快链头条 2026-05-09 19:16:01

阅读 7,230

据动察 Beating 监测，谷歌 DeepMind 发布 AI co-mathematician，一个供数学家使用的多 Agent 交互式研究工作台。该系统在目前最难的研究级数学基准 FrontierMath Tier 4 上拿下 47.9% 的正确率（解出 23/48 题），直接超过了此前最高纪录 GPT-5.5 Pro 的 39.6%。

这套系统没有用新一代底座，直接用的是 Gemini 3.1 Pro。这个模型自己裸跑 Tier 4 只有 19%，加了 Agent 框架后成绩翻倍还多。DeepMind 给它搭了一套多层架构：顶层一个「项目协调人」把研究任务拆分成多条工作流，往下分发给文献检索、写代码和负责推理的子 Agent。写出的证明还要过一轮由多个「审稿 Agent」组成的评审会，通过了才能提交。这套重脚手架证明了：在顶尖数学推理上，编排能压榨出的能力增量，可能比换代模型还要大。

盲测由 Epoch AI 执行，为了防止作弊，DeepMind 团队全程看不到题目，每道题允许跑 48 小时。结果不仅登顶，系统还解出了 3 道此前所有模型全军覆没的题。

虽然名叫副手，它更像是个会开脑洞的同事。群论专家 Marc Lackenby 在实际研究中用它解开了 Kourovka 笔记本里的一个公开猜想。有意思的是，系统最初给出的策略被它自己的审查 Agent 标为「有缺陷」，但 Lackenby 看出了废案里藏着的巧妙思路，自己补上缺口，最终完成了证明。

目前，AI co-mathematician 仅对少量数学家开放内测。

生成图片

快链头条登载此文本着传递更多信息的缘由，并不代表赞同其观点或证实其描述。
文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。
投资有风险，入市须谨慎。本资讯不作为投资理财建议。

推荐活动

【Amplify2026—Quantifying&Growth In Web 4.0】

2026-04-21 14:00

香港 Web3 嘉年华 2026

2026-04-20 18:34

【Amplify2026—VENTURE HORIZON】

2026-04-20 14:00

7*24小时快讯

美元「崩溃」警告再起：桥水达利欧称39万亿美元债务或引爆危机，华尔街押注资金从黄金转向比特币

05-09 19:44(23分钟前)

DeepMind发布AI数学研究助手：多Agent架构击败GPT-5.5Pro，还解出此前「无人能解」难题

05-09 19:16(1小时前)

伊官员否认「美国袭击伊朗民用船致多人失踪」消息

05-09 19:05(1小时前)

某巨鲸昨日连亏14笔多单后反手做空，10倍杠杆押注ZEC回调

05-09 19:01(1小时前)

阿里未参与DeepSeek融资谈判，市场人士否认「谈崩」传闻

05-09 18:42(1小时前)

Bitget推出VIP专属ETH理财，同步解锁理财收益及100枚英伟达空投

05-09 18:35(2小时前)

特朗普24小时「火力全开」：威胁重启中东行动、公布UFO档案、还在白宫带货戴尔电脑

05-09 18:33(2小时前)

SK海力士回应「员工人均610万人民币奖金」：目前无法预测

05-09 18:17(2小时前)

热门资讯

在 Stripe 大会，我看见了 AI 经济的未来

2026-05-07 18:43:54

Strategy 早该说不排除卖币了

2026-05-07 08:18:31

稳定币与拉美汇款：被误读的 1740 亿美元市场

2026-05-06 08:17:19

BVNK 创始人：稳定币发展的三个阶段

2026-05-05 17:51:16

风险提示

根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件，请广大公众理性看待区块链，不要盲目相信天花乱坠的承诺，树立正确的货币观念和投资理念，切实提高风险意识；对发现的违法犯罪线索，可积极向有关部门举报反映。