腾讯开源混元世界模型2.0,一句话生成可走进去的3D世界,直接导入Unity和UE
快链头条 2026-04-16 11:01:43
据 动察 Beating 监测,腾讯正式发布并开源混元 3D 世界模型 2.0(HY-World 2.0)。这是一个多模态世界模型框架,支持文本、单张图片、多视角图片和视频输入,输出不是视频,而是可编辑的 3D 资产(网格模型、3D 高斯溅射、点云),可直接导入 Unity、Unreal Engine 和英伟达 Isaac Sim。模型权重和代码在 GitHub 与 Hugging Face 开源。
和 Genie 3、Cosmos 等视频世界模型的根本区别在于:视频世界模型生成的是像素级视频,播完即消失,无法编辑;HY-World 2.0 生成的是持久存在的 3D 资产,支持自由行走、物理碰撞和二次编辑。腾讯在技术报告中将这个差异总结为「看一段视频然后它消失了」与「建一个世界永久保留」。用消费级 GPU 就能实时渲染,推理只需一次,不像视频世界模型每帧都要跑一遍生成。
技术上分四个阶段:先用 HY-Pano 2.0 从输入生成 360 度全景图,再用 WorldNav 进行轨迹规划,然后用 WorldStereo 2.0 沿轨迹扩展世界,最后用 WorldMirror 2.0 将所有生成片段重建为统一的 3D 场景。在开源方案中,HY-World 2.0 称其为首个达到 SOTA 水平的 3D 世界模型,效果与闭源商业产品 Marble 可比。不过目前只开源了 WorldMirror 2.0(3D 重建模块,约 12 亿参数)的代码和权重,全景生成、轨迹规划和世界扩展三个模块的代码和权重标注为「即将发布」。
对游戏开发者来说,这意味着可以用一句话快速生成关卡原型和地图,省掉大量手工建模时间。对具身智能研究者而言,从照片批量生成仿真训练环境的成本大幅降低。腾讯同时上线了在线体验入口,用户可以操纵角色在生成的街道和建筑中自由探索。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。