智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影
短短半月,混元團隊又向3D生成的“視野盲區”推進了一步。
智東西9月2日報道,今日,騰訊混元團隊正式開源其HunyuanWorld 1.0世界模型的官方擴展模型“HunyuanWorld-Voyager”。
這也是混元在近兩個月內,圍繞3D世界生成系統的第三次發布:7月,團隊首次開源HunyuanWorld 1.0模型,支持從文本或圖像生成可漫游的三維場景;8月,推出適配消費級顯卡的Lite版本,降低部署門檻。
Voyager則將目標從“生成一個可看的世界”進一步推向“構建一個可走、可擴展的世界”。
它主要針對當前世界模型在長距離生成和視角一致性上的限制,首次引入RGB-D視頻聯合建模與空間緩存機制,可根據單張圖和用戶設定的相機軌跡,生成結構連續、深度一致的點云視頻,并可直接導出為標準3D格式。
換句話說,它不僅能把視野之外的區域合理補全,還能持續“記住”用戶走過的路徑,并在空間中銜接新的視角內容。
根據斯坦福李飛飛團隊主導的WorldScore排行榜,Voyager在當前主流世界模型中平均成績位列第一。

體驗指路:
主頁://3d-models.hunyuan.tencent.com/world/
Github://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Huggingface://huggingface.co/tencent/HunyuanWorld-Voyager
技術報告://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
一、多種3D任務解鎖,直出結果可即用
Voyager不僅繼承了混元世界模型1.0的圖生世界能力,還進一步解決了“用戶走出原視角之后”的補全問題。其生成結果不僅可實時呈現,還能直接導出為標準3D格式(如點云、mesh),無需借助Colmap、VGGT等后處理工具。
具體來看,Voyager可應用于以下典型任務:
1、控制生成視頻畫面:用戶可通過鍵盤或搖桿設定相機軌跡,系統生成對應視角的視頻序列,同時保持空間結構一致性;


2、風格化編輯與控制:支持對生成視頻進行畫面風格調整與局部重繪,保持內容可控;


3、圖生3D與視頻深度估計:支持從圖像生成結構完整的3D物體,也可對普通視頻進行深度補全,用于三維理解與后續建模;

▲圖生3D物體

▲視頻深度估計
二、引入新架構,空間建模能力顯著增強
混元世界模型-Voyager架構是對混元世界模型1.0新視角內容的補全,引入了“世界一致視頻擴散”與“長距離世界探索”兩大核心機制。
此前,混元世界模型1.0模型已支持從文本或圖像生成可漫游的三維世界,并輸出標準3D格式,兼容游戲引擎。但當用戶“走出”原始畫面后,生成范圍會受限。Voyager解決的正是這類遮擋與長距離視角問題。
1、世界一致的視頻擴散
目前,可控視頻生成模型已經具備構建“世界模型”的潛力,但這類“圖生視頻”方案多停留在RGB模態,難以還原三維結構,限制了交互性和空間一致性。相比之下,顯式生成3D場景(如點云、Mesh)可用于更真實的空間重建,但受限于訓練數據和計算資源,難以在大規模場景中泛化。
混元世界模型Voyager結合了視頻生成與顯式3D建模兩類方法,支持在用戶設定相機軌跡和初始場景的條件下,生成空間一致的RGB-D視頻序列,并可直接導出為點云格式的三維數據。

Voyager首次在視頻生成中引入RGB+Depth的雙模態聯合建模,形成“點云視頻”:
1、輸入:圖片+用戶指定的相機軌跡;
2、輸出:RGB-D視頻序列,每幀均具備像素級深度信息;
3、拼接機制:先在空間維度上拼接RGB和D(Depth),再在特征維度上結合兩模態信息,用VAE框架學習RGB-D的生成規律;
4、訓練結構:由雙流模塊與控制模塊組成,基于Hunyuan-Video DiT模型進行訓練。
此外,為支撐訓練需求,混元團隊構建了一套可擴展的數據構建引擎,可自動對任意輸入視頻估計相機姿態與時序信息,擺脫人工標注依賴,批量生成可用于RGB-D建模的訓練樣本。基于該引擎,Voyager融合真實視頻與虛幻引擎合成數據,構建了包含超過10萬段視頻片段的大規模訓練集。
這種機制讓Voyager具備“原生3D記憶能力”,無需后處理重建步驟即可生成空間一致、格式統一的3D點云。
2、長距離世界探索
Voyager通過提出一種具備空間一致性的可拓展世界緩存機制,突破了長距離世界探索的限制。
1、先生成一個初始場景點云緩存(來自HunyuanWorld 1.0);
2、再將緩存投影至用戶設定的相機視角;
3、利用擴散模型生成新視角畫面,并不斷更新緩存,最終形成一個支持任意相機軌跡的閉環系統。

這一方法兼顧空間結構記憶、視角可控與多視圖一致性,意味著用戶可以像玩第一人稱游戲一樣“自由走”,所到之處都能被系統填補,并保持幾何結構一致。
三、三項實驗:驗證空間一致性與重建質量
為全面驗證HunyuanWorld-Voyager的性能表現,混元團隊圍繞視頻生成質量、三維場景重建能力以及世界生成能力三個方向進行了系統實驗,覆蓋RGB視頻質量、幾何一致性與長距離空間表達等多個維度。
1. 視頻生成:相似性與結構性指標均領先
在視頻生成任務中,混元團隊選取RealEstate10K數據集中的150個視頻片段,并與四種開源的攝像頭可控視頻生成方法進行對比。

結果顯示,Voyager在全部指標上均優于現有方法。

定性分析中,Voyager能夠生成更為多樣、結構清晰的視頻幀,尤其在細節區域的保留上表現出色。例如在樣例中,其他方法在相機大幅移動時易產生α影或結構塌陷,而Voyager仍能準確還原輸入圖像中的產品邊界與材質細節。
2. 場景重建能力:融合RGB-D,三維結構更準確
在場景生成任務中,Voyager進一步驗證了其RGB-D視頻序列對三維結構重建的支持能力。混元團隊使用VGGT方法作為后處理統一流程,對比核心模型的RGB視頻生成后能否支持高質量點云還原。

結果表明,即便在僅使用RGB重建的場景下,Voyager生成的視頻在幾何一致性方面也優于其他方法;而一旦加入原生深度信息初始化點云,重建精度進一步提升。

在3D Gaussian Splatting任務中,Voyager成功還原了復雜結構(如吊燈)的完整形狀,而其他方法在邊緣結構與局部細節上普遍存在缺失。
3. 世界生成能力:跨域泛化與長距離空間表達能力增強
在更具挑戰性的WorldScore靜態基準測試中,Voyager同樣展現出領先能力。該基準評估模型在開放域條件下的世界建構能力,尤其關注光學運動控制能力與空間一致性表現。

Voyager在該任務中獲得最高平均分,驗證了其空間一致建模機制具備跨數據域的泛化能力。
同時,由于生成條件一致,Voyager在保證一致性的前提下,所驅動的相機運動幅度大幅超過對比模型,其對于長路徑建模與多視角連續性控制更具備優勢。
結語:讓生成的世界走得更遠
從靜態場景到可控漫游,再到具備深度信息與空間拓展,Voyager補足了混元世界模型在空間連續性上的一塊關鍵能力。
從一段文字、一張圖生成一個初始場景,再根據用戶設定的相機軌跡拓展新視角內容,這種“邊走邊生成”的邏輯,正在成為AI理解空間的另一種可能。