阿里推出具身智能基座Qwen-Robot,以自然语言对齐多域物理动作实现零样本部署

快链头条 2026-06-16 14:26:51
阅读 1,962
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,阿里大模型团队发布具身智能底层模型套件 Qwen-Robot Suite,包含 Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 三款基座模型,分别对应导航、操作与世界模拟三个物理动作领域。套件旨在将视觉语言模型与物理动作对齐,实现多任务与多机型的具身泛化。

导航模型 Qwen-RobotNav 统一了指令跟随、目标导航、目标追踪和自动驾驶等任务。设计上,模型参数化了视觉分配策略,支持推理时动态调整视觉 token 预算与帧采样等控制轴。在 1560 万条样本上训练后,Qwen-RobotNav 在 5 个导航领域取得 SOTA,并已零样本部署于宇树 Go2 四足机器人。

操作模型 Qwen-RobotManip 基于 Qwen3.5-4B VL 骨干网络与流匹配 DiT 动作头构建,采用 80 维状态-动作表示输出末端执行器增量位姿。团队使用超过 38100 小时数据(含开源机器人演示、人类视频及人机迁移合成数据)进行训练,在 LIBERO-Plus 评测中取得 91.4% 的成功率。

物理世界预测模型 Qwen-RobotWorld 采用自然语言统一机器人动作接口。架构上,模型基于 60 层双流 MMDiT 将 Qwen2.5-VL 语义表示与视频隐变量深度耦合。在 860 万个视频-文本对上训练后,Qwen-RobotWorld 在 EWMBench 和 WorldModelBench 等物理规律遵循评测中均位列第一。

三个模型均提供语言优先接口。阿里同时推出机器人智能体框架 Qwen-RobotClaw,由上层规划器(如 Qwen-3.5)调用套件模型作为物理工具以实现多步操作。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。