一觉睡醒,好多朋友让我看 #manus,号称一款全球真正意义上通用的 AI Agent,能够实现独立思考并规划执行复杂任务,并交付完整结果。听起来非常 Cool,但除了很多朋友圈焦虑的要失业的声音之外,它会给 web3 DeFai 场景大爆发带来什么?以下,谈谈我的思考:
1)约一个月前 OpenAI 推出了同类别产品 Operator,AI 可以在浏览器中独立完成包括餐厅预订、购物、订票、外卖订餐等任务,用户可以可视化进行监督,并随时接管控制权。
这套 Agent 的出现并没有多少人讨论,原因在于它是单一模型驱动,还是工具调用的那套框架,用户一想到关键决策还需要干预进行就失去了依赖其执行任务的想法。
2)manus 表面看似也差不太多,只是多了不少应用场景,包括筛选简历,研究股票、购买房产等等,但实际上是背后的框架和执行系统差异,Manus 由多模态大模型驱动,并创新性的采用了多重签名系统。
简而言之,AI 要模仿人执行(计划 - 执行 - 检查 - 行动)的 PDCA 循环行动,将由多个大模型共同协作完成,每个模型专注于特定环节,既能降低单个模型执行任务的决策风险,又能提高执行效率。所谓「多重签名系统」其实是多模型协作的决策验证机制,通过要求多个专业模型的共同确认来保证决策和执行的可靠性。
3)如此一比较,manus 的优势显然就凸显出来了,加上视频 Demo 里展现的一系列操作体验,让人确实有一种非凡的体验感。但客观来说,Manus 对 Operator 的迭代创新只是个开始,还达不到颠覆性革命意义。
关键点就在于其执行任务的复杂程度,以及非统一标准用户 input Prompt 进入之后大模型的容错率和交付结果成功率定义。要不然,顺着这套创新,web3 的 DeFai 场景是不是立马就可以成熟应用了?显然,还做不到:
比如:DeFai 场景下 Agent 要执行交易决策,需要有一个 Oracle 层的 Agent 负责链上数据收集和验证,并进行数据整合分析,还要实时监控链上价格捕捉交易机会,这个过程对实时分析有很大挑战,有可能一秒前还有用的交易机会,等 Oracle 大模型传输给交易执行 Agent 之后,交易机会就不存在了(套利窗口);
这其实暴露了这类多模态大模型做执行决策的一个最大软肋,如何联网、触链调取分析 Real-Time 级别的数据,并从中分析出交易机会,然后进行交易捕捉。联网环境其实还好,很多电商网站的订单价格并非实时变动,不容易给整个多模态协作造成巨大动态平衡困扰,要是在链上,这样的挑战几乎无时无刻存在。
4)所以,整体上 manus 的出现确实会在 web2 领域掀起一波朋友圈焦虑,毕竟很多重复性高的文职和信息处理工种可能会面临被 AI 取代的风险。但让他们焦虑他们的。
这事放在 web3 对 DeFai 应用场景的推动作用我们得客观认识:
必须得承认:意义肯定重大,毕竟它提出的 LLM OS 以及 Less Structure more intelligence 理念、尤其是多重签名系统会给 web3 拓展 DeFi 和 AI 的结合有很大的启迪思路。
这其实纠正了大部分 DeFai 项目的重大误区,不要上来就想依靠一个大模型实现 AI Agent 自主化思考 + 决策等复杂目标,这在金融场景下,根本不切合实际。
真正 DeFai 愿景的实现需要解决单体 AI 模型能力上限、多模态交互协作原子性保证、多模态系统统一资源调度和支配、系统容错和故障处理机制等等复杂问题。
比如:Oracle 层 Agent,负责收集链上数据和分析,并监控价格,形成有效数据源;
决策层 Agent,根据 Oracle 喂过来的数据进行分析和风险评估,并制定一套决策和行动方案;
执行层 Agent,根据决策层给出的多种方案,并考虑实际情况进行执行,包括 gas 费用优化、跨链状态、交易排序冲突等等。
唯有这一系列的 Agent 都同步强大,并有一个庞大的系统框架落定,一个真正的 DeFai 革命才会掀起。