谷歌主力模型Gemini 3.5 Flash原生支持电脑操控,解锁企业级智能体自动化

快链头条 2026-06-25 11:34:58
阅读 3,234
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,谷歌将电脑操控 (Computer Use) 功能作为内置工具,直接整合进主力大模型 Gemini 3.5 Flash。

在原生整合前,开发者必须调用专门的 Gemini 2.5 电脑操控模型才能执行代理任务。原生集成后,开发人员与企业用户能够直接通过 Gemini API 或谷歌云 Gemini 企业智能体平台 (Gemini Enterprise Agent Platform,即原 Vertex AI 平台) 让主力模型操控设备,简化了智能体 (Agent) 开发架构。

内置的电脑操控工具通过接收浏览器、移动端或桌面环境的屏幕截图,进行视觉感知与步骤推理,随后输出鼠标点击、键盘输入、滚轮滚动及菜单导航等操作指令,用以完成软件持续测试、跨网页数据采集等长流程自动化任务。为了方便调试与审计,模型生成指令时会附带「意图」 (intent) 字段,用以说明每一步操作的逻辑。

针对智能体在真实网络环境中可能遭遇的提示词注入风险,谷歌对模型进行了定向对抗训练,并提供两项可选防护:涉及资金支付、文件删除等不可逆操作时强制引入人工核准;截图中若发现间接注入指令则自动熔断任务。

目前,Browserbase 提供了在线托管演示环境 (gemini.browserbase.com),谷歌官方也同步在 GitHub 开源了名为 computer-use-preview 的参考实现代码。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。