腾讯开源混元世界模型2.0，一句话生成可走进去的3D世界，直接导入Unity和UE

快链头条 2026-04-16 11:01:43

阅读 4,128

据动察 Beating 监测，腾讯正式发布并开源混元 3D 世界模型 2.0（HY-World 2.0）。这是一个多模态世界模型框架，支持文本、单张图片、多视角图片和视频输入，输出不是视频，而是可编辑的 3D 资产（网格模型、3D 高斯溅射、点云），可直接导入 Unity、Unreal Engine 和英伟达 Isaac Sim。模型权重和代码在 GitHub 与 Hugging Face 开源。

和 Genie 3、Cosmos 等视频世界模型的根本区别在于：视频世界模型生成的是像素级视频，播完即消失，无法编辑；HY-World 2.0 生成的是持久存在的 3D 资产，支持自由行走、物理碰撞和二次编辑。腾讯在技术报告中将这个差异总结为「看一段视频然后它消失了」与「建一个世界永久保留」。用消费级 GPU 就能实时渲染，推理只需一次，不像视频世界模型每帧都要跑一遍生成。

技术上分四个阶段：先用 HY-Pano 2.0 从输入生成 360 度全景图，再用 WorldNav 进行轨迹规划，然后用 WorldStereo 2.0 沿轨迹扩展世界，最后用 WorldMirror 2.0 将所有生成片段重建为统一的 3D 场景。在开源方案中，HY-World 2.0 称其为首个达到 SOTA 水平的 3D 世界模型，效果与闭源商业产品 Marble 可比。不过目前只开源了 WorldMirror 2.0（3D 重建模块，约 12 亿参数）的代码和权重，全景生成、轨迹规划和世界扩展三个模块的代码和权重标注为「即将发布」。

对游戏开发者来说，这意味着可以用一句话快速生成关卡原型和地图，省掉大量手工建模时间。对具身智能研究者而言，从照片批量生成仿真训练环境的成本大幅降低。腾讯同时上线了在线体验入口，用户可以操纵角色在生成的街道和建筑中自由探索。

生成图片