为什么你的Agent跑几分钟就罢工?OpenAI工程师:它需要记分牌和外挂记忆

快链头条 2026-05-12 18:41:44
阅读 5,615
二维码
微信扫一扫,分享此文章

据 动察 Beating 监测,Codex 的 /goal 模式能让 Agent 不断循环直到完成任务,但这放大了人类含糊其辞的提示词缺陷。OpenAI 工程师 Chris Hayduk 根据内部实操经验指出,像「优化代码」这种模糊指令,会让模型因不知道何为终点而过早放弃,或是陷入盲目修改的死循环。

要让 Agent 稳定打工数天甚至更久,他总结了三条纪律:
- 消灭定性词,用清单替代:模型无法评估什么是「更好」,但能理解「在不挂测试前提下缩短 20% 耗时」。面对论文排版等定性任务时,他甚至直接扔给 Codex 一份包含 200 条格式要求的 Markdown 清单,把抽象任务暴力转化为定量任务——「把勾打满即为完成」。
- 把验证耗时压到分钟级:Agent 需要通过测试来验证动作是否有效。不要让它在庞大的生产环境中跑几个小时,给它抽样数据集和轻型框架,让反馈循环越短越好。
- 建三个文件当「外脑」:即使上下文窗口再大,连跑几天也会丢记忆。他建议直接在本地建三个 Markdown 文件:PLAN.md(宏观计划)、EXPERIMENTS.md(实验得失记录)和 EXPERIMENT_NOTES.md(实时思考草稿),强迫模型把试错过程写在硬盘里。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。