仅需一句提示词或一张图片即可生成完整的360度全景三维世界,并支持沉浸式场景漫游体验。
这项突破性成果由腾讯混元团队研发的HunyuanWorld 1.0模型实现,在消费级显卡上即可运行,并且发布时即开源。
与近期引发热议的Genie3模型仅能输出视频不同的是,该模型可导出可编辑的三维网格模型(3D mesh),满足二次开发需求。
HunyuanWorld 1.0的技术架构采用以全景图像为中…
仅需一句提示词或一张图片即可生成完整的360度全景三维世界,并支持沉浸式场景漫游体验。
这项突破性成果由腾讯混元团队研发的HunyuanWorld 1.0模型实现,在消费级显卡上即可运行,并且发布时即开源。
与近期引发热议的Genie3模型仅能输出视频不同的是,该模型可导出可编辑的三维网格模型(3D mesh),满足二次开发需求。
HunyuanWorld 1.0的技术架构采用以全景图像为中间媒介的分层生成方案:首先通过文本或图像输入生成无边界断裂且几何结构完整的360°全景图;
接着将全景图拆解为天空、背景、前景物体等可独立操作的语义图层;
最后通过深度标注将各图层转换为三维结构,并支持标准三维格式导出。
该框架还引入两项关键技术优化:点云缓存与视频扩散算法实现长距离场景无缝漫游;
双模式压缩存储方案兼顾在线实时渲染与离线精细建模需求。
针对初始版本26GB显存占用问题,团队特别推出Lite版本进行针对性优化:采用动态FP8量化技术将显存需求降至17GB以下,在消费级显卡上即可运行高质量场景生成。
其核心创新在于动态调整量化范围以平衡精度与性能:通过SageAttention量化方案将Transformer注意力机制计算精度降至INT8级别,在保持
评论列表 (0条):
加载更多评论 Loading...