智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影

智東西AI前瞻7月27日報道,今日,騰訊混元正式發布3D世界模型1.0,并同步開源模型能力

這是騰訊首次將3D內容生成從“物體級”擴展至“世界級”,用戶只需一句話或一張圖,即可生成一個360度沉浸式、可漫游、可編輯的三維虛擬世界

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

騰訊混元3D團隊在接受智東西等媒體采訪時稱,世界模型1.0兼顧生成質量與工業應用可落地性,也初步應用于游戲開發、具身智能仿真、XR內容制作等場景。近日,該模型也被AI設計Agent平臺Lovart等正式接入。

體驗指路://3d.hunyuan.tencent.com/sceneTo3D

Github項目地址://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

項目主頁://3d-models.hunyuan.tencent.com/world/

Hugging Face、模型地址://huggingface.co/tencent/HunyuanWorld-1

一、從資產到世界,3D生成拓展到“可漫游空間”

混元3D世界模型1.0是騰訊首次將AI生成能力從單個3D物體,擴展至整套可編輯、可導出的360度虛擬世界構建流程。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲效果圖(圖源:混元官方)

該模型支持文本與圖像輸入,用戶只需一句描述或一張參考圖,即可生成一個具備空間一致性、支持自由漫游的3D場景。

與傳統2D全景生成或靜態3D模型不同,混元3D世界模型具備“能走、能用、能改”的三重特點:

1、生成內容為完整封閉場景,用戶不僅可原地環視,還能通過鍵盤控制視角、方向,在空間中自由行走、漫游。

2、生成結果支持標準3D Mesh格式輸出,兼容Unity、Unreal、Blender等主流引擎,可直接用于游戲原型驗證、動畫制作或仿真建模。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲效果圖(圖源:混元官方)

3、該模型基于自研的語義層次化算法,將場景結構拆解為前景物體、地形地貌與天空貼圖等模塊,用戶可對局部元素進行結構級修改。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲混元世界模型1.0方法流程圖(圖源:混元官方)

二、從一張圖到一個空間,混元怎么把世界“拼”出來?

混元團隊在架構設計上引入了3D與2D融合方案:前景采用高保真3D建模,中景通過多視角補齊完成空間閉合,遠景與天空則以圖像方式渲染,實現兼顧細節質量與生成效率的折中。

為了提升模型的泛化能力與穩定性,該系統目前僅支持風格化圖片、簡潔構圖、平視視角等輸入,能夠在有限樣本下準確解析語義意圖。

此外,混元還對模型的生成質量進行了定量評估,在紋理細節、美學水準、指令遵循等維度全面超越當前SOTA開源模型

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲(圖源:混元官方)

目前,該系統已支持初步的漫游交互與局部模型編輯,后續將拓展動作層建模能力,引入更強的物理仿真模塊與跨平臺輸出標準。

三、體驗:全景能看,場景能走,還能動手改

1、360度全景圖:快速生成,初具細節

  • 文生場景

在不包含人物的前提下,智東西點擊系統內“隨機”按鈕,系統生成如下指令:“硅基樹木與熒光植物,浮空孢子囊飄散,生物朋克生態,阿凡達電影概念藝術,紫藍漸變色調。”

效果如下:

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

模型基本契合設定場景風格,尤其在近景處理上表現出一定細節感,如地表草根清晰可辨。不過,整體細節仍略顯空泛,若未來支持對話式增補,有望進一步提升沉浸感與編輯靈活性。

  • 圖生場景

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲圖片由AI生成。

智東西上傳一張風格相近的參考圖后,系統在理解與還原方面的表現顯著提升,色彩、構圖和場景一致性均優于文生模式。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

2、漫游場景:可操作,可導出

  • 文生場景

智東西編寫了一段靈感源自“塞爾達傳說”的復雜指令,要求構建一個融合火山、古樹與漂浮島嶼的幻想高原。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

系統生成的場景除還原度高,還具備“可編輯場景”能力。用戶可通過GLB/PLY格式圖層,對局部模型進行拖拽、旋轉與縮放,并導出源文件供后續使用。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

  • 圖生場景

在“圖生場景”的功能體驗中,智東西上傳一張偏古風的游戲場景圖進行生成。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲圖片由AI生成。

系統生成畫面整體符合原圖風格,但由于參考圖中元素密集,AI在切分圖層時準確度有限,影響后續編輯體驗。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

當前版本已初步支持基礎漫游操作與模型局部編輯,仍存在部分角度生成不全、邊界穿透等問題。若未來支持“以圖續圖”及生成鏈路簡化,整體的可探索性與用戶體驗將顯著提升。

結語:3D世界邁向關鍵一步,可用性已具雛形

就當前版本而言,混元3D世界模型1.0在空間細節密度、圖層結構解析與交互完整性方面仍存在一定優化空間,特別是在處理復雜參考圖和動態交互時,生成結果尚未完全穩定。

但與此同時,其在生成效率、結構分層、資產導出等核心能力上已具備較強可用性。無論是快速搭建虛擬場景,還是輸出可編輯資產用于后續開發,混元模型初步打通了“從生成到應用”的關鍵環節。

更為重要的是,模型開源為開發者與內容創作者提供了真實可用的工具鏈入口,降低了3D建模與交互空間構建的技術門檻。

未來,若在可控性、物理仿真、跨平臺兼容等方面持續推進,該模型或將成為AIGC三維內容生態的重要基礎工具。