据 动察 Beating 监测,Anthropic 发布首份官方开发指南,深入披露了 Claude 4.6 与 Opus 4.7 在电脑和浏览器操控场景下的分辨率上限、思考深度配比及缓存降本机制。
屏幕分辨率直接决定了智能体点击的精准度。Claude 4.6 解析截图的长边上限为 1568 像素,Opus 4.7 为 2576 像素。一旦截图超出限制,API 服务端会自动等比缩小图片,这会导致模型生成的点击坐标与客户端原图产生错位漂移。因此,开发者必须提前在客户端将截图缩放至 1280x720 (Claude 4.6 推荐) 或 1080p (Opus 4.7 推荐)。
界面操控主要依赖视觉感知与元素定位,对长链条逻辑推理要求不高。测试表明,Opus 4.7 在低思考深度 (low) 下的操控表现便能追平 Sonnet 4.6 的最大思考深度 (max),且 token 成本仅为后者的十分之一。官方建议将思考选项设为 high,相比 max 深度不仅 token 消耗减半,成功率也完全持平,应避免开启 max 以防模型过度思考导致账单翻倍。
由于单张截图在上下文中最高消耗 1800 个 token,官方给出了三层降本方案:常驻 1 个系统级缓存断点,并将另 3 个断点动态分配给最近几轮工具的执行结果;在客户端进行滚动剪枝,仅在上下文中保留最近 3 张截图,其余用占位符替代;在上下文深度逼近 90% 时触发总结压缩。
此外,API 引入了批量工具 computer_batch,支持单次调用打包执行多项无视觉依赖的操作;并提供智能体顾问机制 (Advisor Tool),允许主模型在后台直接召唤高阶的 Opus 模型来审计执行步骤。开发者还可通过录制引导模式 (Teach Mode,即录制用户的真实操作轨迹并在回放时作为指令参考) 来大幅提升任务成功率。