DeepMind发布AI数学研究助手:多Agent架构击败GPT-5.5Pro,还解出此前「无人能解」难题

快链头条 2026-05-09 19:16:01
阅读 7,230
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,谷歌 DeepMind 发布 AI co-mathematician,一个供数学家使用的多 Agent 交互式研究工作台。该系统在目前最难的研究级数学基准 FrontierMath Tier 4 上拿下 47.9% 的正确率(解出 23/48 题),直接超过了此前最高纪录 GPT-5.5 Pro 的 39.6%。

这套系统没有用新一代底座,直接用的是 Gemini 3.1 Pro。这个模型自己裸跑 Tier 4 只有 19%,加了 Agent 框架后成绩翻倍还多。DeepMind 给它搭了一套多层架构:顶层一个「项目协调人」把研究任务拆分成多条工作流,往下分发给文献检索、写代码和负责推理的子 Agent。写出的证明还要过一轮由多个「审稿 Agent」组成的评审会,通过了才能提交。这套重脚手架证明了:在顶尖数学推理上,编排能压榨出的能力增量,可能比换代模型还要大。

盲测由 Epoch AI 执行,为了防止作弊,DeepMind 团队全程看不到题目,每道题允许跑 48 小时。结果不仅登顶,系统还解出了 3 道此前所有模型全军覆没的题。

虽然名叫副手,它更像是个会开脑洞的同事。群论专家 Marc Lackenby 在实际研究中用它解开了 Kourovka 笔记本里的一个公开猜想。有意思的是,系统最初给出的策略被它自己的审查 Agent 标为「有缺陷」,但 Lackenby 看出了废案里藏着的巧妙思路,自己补上缺口,最终完成了证明。

目前,AI co-mathematician 仅对少量数学家开放内测。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。