据 动察 Beating 监测,英伟达开放 Cosmos-Reason2-32B 模型权重。Cosmos Reason 2 是英伟达去年底发布的物理 AI 推理视觉语言模型(VLM,同时处理图像、视频和文字的模型),专门教机器人和自动驾驶系统理解空间、时间和基础物理规律。当时只开放了 20 亿和 80 亿参数两个小版本的权重,320 亿参数的旗舰版直到现在才首次公开。底座是通义千问 Qwen3-VL-32B-Instruct,NVIDIA Open Model License 可商用。
给它一段行车录像,它能边看边推理判断右转是否安全;给它一张仓库照片,它能标出每件货物的 2D/3D 坐标和边界框。主要用途三个方向:分析城市和工业场景的视频流、批量标注传感器数据、给人形机器人和自动驾驶车辆当规划大脑。相比上一代,新增目标检测与时间戳精确定位,上下文窗口扩到 256K token。