谷歌发布ReasoningBank,智能体从成败经验中提炼推理策略

快链头条 2026-04-22 16:24:03
阅读 7,026
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,谷歌研究院发布智能体记忆框架 ReasoningBank,让大模型驱动的智能体在部署后持续学习。核心做法是把过往任务的成功和失败经验都提炼成通用的推理策略存入记忆库,下次遇到类似任务先检索再执行。相关论文在 ICLR 发表,代码已在 GitHub 开源。

此前两类主流方案各有缺陷:Synapse 记录完整行动轨迹,粒度太细难迁移;Agent Workflow Memory 只从成功案例提炼工作流。ReasoningBank 改了两处:存储对象从「动作序列」换成「推理模式」,每条记忆含标题、描述、内容三段结构化字段;失败轨迹也纳入学习。模型调用另一个大模型对执行轨迹自评,失败经验被拆成防踩坑规则,例如从「看见 Load More 按钮就点」升级为「先核对当前页面标识,避免陷入无限滚动,再点击加载更多」。

论文另提出 Memory-aware Test-time Scaling(MaTTS),在推理时投入更多算力反复尝试,并把探索过程存入记忆库。并行扩展让智能体对同一任务跑多条不同轨迹,通过自对比提炼更稳健的策略;顺序扩展在单条轨迹内反复精修,把中间推理记入记忆库。

在 WebArena 浏览器任务和 SWE-Bench-Verified 代码任务两个基准上,用 Gemini 2.5 Flash 做 ReAct 智能体,ReasoningBank 相比无记忆基线在 WebArena 上成功率高 8.3%,SWE-Bench-Verified 上高 4.6%,每项任务平均少走约 3 步;叠加 MaTTS 并行扩展(k=5)后,WebArena 成功率再提 3 个百分点,步数再少 0.4 步。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。