智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬

智東西8月12日報道,今日,昆侖萬維開源自研世界模型Matrix系列中Matrix-Game交互世界模型的升級版本——Matrix-Game 2.0

上周,谷歌DeepMind推出交互式世界模型Genie 3,實現了交互式實時長序列生成,引起產業關注。然而Genie 3并沒有開源。昆侖萬維Matrix-Game 2.0是業內首個在通用場景上,實現實時長序列交互式生成的世界模型開源方案。這意味著具身智能、游戲、影視及元宇宙多個領域(yu)的開(kai)發者將獲得一個高開(kai)放可用的數據合(he)成、模型訓練及場景(jing)搭建的生產力工(gong)具(ju)。

Matrix-Game 2.0有以(yi)下三(san)大特點:

1、實時蒸餾。采用(yong) “少步擴散(san)” 技術,實現25FPS(幀(zhen)/秒)的流式視頻合成(cheng),能(neng)以超高速在復(fu)雜環境中(zhong)生成(cheng)分鐘級、高保真的視頻。

2、精準動作注入。一(yi)個 “鼠標 / 鍵盤到幀” 模塊,可將用戶輸(shu)入作為直接(jie)交(jiao)互嵌入其(qi)中(zhong),從而(er)在生成(cheng)的視頻中(zhong)實現幀級控制(zhi)和動態響(xiang)應。

3、大規模交互式數據管道。一個適用于虛幻引擎(Unreal Engine)和《俠盜獵車手 5》(GTA5)的(de)可(ke)擴展(zhan)生(sheng)(sheng)產系統,能生(sheng)(sheng)成(cheng)約1200小時的(de)高質量(liang)交互式視(shi)頻數據(ju),涵(han)蓋多樣(yang)化場景,且具備幀級(ji)真實感。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

▲基于(yu)Matrix-Game 2.0生(sheng)成的交互式模(mo)型

這款模型的視頻生成效(xiao)果(guo)如何?有(you)什么(me)樣的應用價值?又有(you)什么(me)技術(shu)亮點?本文(wen)帶大家(jia)一(yi)探(tan)究竟。

項目主頁:
//matrix-game-v2.github.io/
HuggingFace地址:
//huggingface.co/Skywork/Matrix-Game-2.0
GitHub地址:
//github.com/SkyworkAI/Matrix-Game

一、低延遲、高幀率、長時序,國產交互式世界模型開源

相較于上一版本,Matrix-Game 2.0更(geng)加(jia)側重低(di)延(yan)遲(chi)、高幀(zhen)率的(de)長(chang)序列交(jiao)互性(xing)能(neng),能(neng)夠以25 FPS的(de)速度,在(zai)多種復(fu)雜場(chang)景中穩定生(sheng)成連續(xu)視頻(pin)內容(rong),且(qie)生(sheng)成時長(chang)可擴展至分鐘級,大幅提升了連貫性(xing)與實用性(xing)。

在推(tui)理速度顯著提升的(de)同(tong)時(shi),模型依(yi)然保持了對(dui)物理規律與場景(jing)語義的(de)精準理解,支持用戶(hu)通過簡單指令,自由探索、操控并實時(shi)構建結構清晰(xi)、細(xi)節豐富(fu)、規則(ze)合理的(de)虛擬(ni)環境。

在(zai)(zai)性能測試(shi)上,如下圖所示,Matrix-Game 2.0在(zai)(zai) Minecraft場(chang)景的(de)GameWorld Score基準測試(shi)中取得了好成績,在(zai)(zai)圖像質量、美學品質、鼠標(biao)指針等多個(ge)方(fang)面的(de)得分均超過了全球(qiu)首個(ge)實時(shi)可玩可交互的(de)世(shi)界模型Oasis。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

例如(ru)在一些無約束(shu)、不(bu)可控的(de)真實場景(jing),Matrix-Game 2.0可根據用戶輸入的(de)任意控制指(zhi)令,如(ru)鍵盤的(de) W/A/S/D 方(fang)向(xiang)鍵、鼠標用于視(shi)(shi)角移(yi)動(dong),生(sheng)成對應的(de)交互世界視(shi)(shi)頻,支持(chi)角色的(de)前后左右移(yi)動(dong)以及視(shi)(shi)角變換(huan)等(deng)動(dong)態行為。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

▲Matrix-Game 2.0支持無約束(shu)、不(bu)可控的真(zhen)實(shi)場景交互

在GTA游戲場景和Minecraft場景中,Matrix-Game 2.0也(ye)支持鍵盤與鼠標操作,并且能夠生(sheng)成真實感更強(qiang)、符合物理邏(luo)輯的可交(jiao)互視頻。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

▲Matrix-Game 2.0支持GTA游戲場景(jing)交互(hu)

二、自回歸擴散生成機制,實時生成長視頻

交互式(shi)視頻生成領域的最新進(jin)展展現了(le)擴散模(mo)(mo)型作為世(shi)界(jie)模(mo)(mo)型的潛力。然而,現有(you)的交互式(shi)世(shi)界(jie)模(mo)(mo)型依賴于雙向注意力機制和冗(rong)長的推理步驟,嚴重限制了(le)實時性能(neng)。因此(ci),它(ta)們難以模(mo)(mo)擬現實世(shi)界(jie)的動(dong)態。

為了解決這(zhe)個(ge)問題(ti),昆侖萬維提(ti)出了Matrix-Game 2.0,一個(ge)交(jiao)互式世界(jie)模(mo)型,它通過(guo)(guo)幾步(bu)自(zi)回(hui)歸擴散算法(fa)實時生成(cheng)長視頻。其基礎模(mo)型源(yuan)自(zi)WanX,通過(guo)(guo)移除文本分支(zhi)并添加動(dong)作模(mo)塊(kuai),該(gai)模(mo)型僅根(gen)據視覺內容和對(dui)應的(de)動(dong)作來預測下一幀。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

Matrix-Game 2.0的框(kuang)架由三(san)個(ge)關鍵組(zu)件組(zu)成:

1、一個適用于虛幻引(yin)擎(qing)和(he)GTA5環境的可(ke)(ke)擴展數(shu)據生產(chan)流水線,可(ke)(ke)有效生成海量(liang)(約 1200小時)交(jiao)互式視頻數(shu)據;

2、一(yi)個動作注入模塊,支持幀級鼠標和(he)鍵盤輸入交互;

3、基于(yu)隨意架構的幾步提煉,用于(yu)實時流式視頻(pin)生(sheng)成。

Matrix-Game 2.0基于Self-Forcing訓練策略,通(tong)過創新(xin)的(de)自回歸擴散(san)生成機(ji)制克服了(le)傳統雙向擴散(san)模型的(de)延(yan)遲和誤差累積(ji)問題:

1、因果擴(kuo)散模(mo)型(xing)訓(xun)(xun)練(lian):將雙向擴(kuo)散模(mo)型(xing)蒸餾為因果模(mo)型(xing),使用基礎模(mo)型(xing)初(chu)始化生成器,并構(gou)建(jian)小規模(mo)數據(ju)集,通過(guo)近(jin)似ODE軌(gui)跡進(jin)行(xing)訓(xun)(xun)練(lian),穩定自回歸(gui)擴(kuo)散過(guo)程。通過(guo)歷(li)史(shi)幀條件生成當前幀,減少因依賴未來(lai)幀而導(dao)致的時序延遲。

2、分布(bu)匹配蒸餾(DMD):通過最小化與基(ji)礎模(mo)型之間的分布(bu)差異,引導學(xue)生模(mo)型學(xue)習生成高(gao)質量視頻幀,對齊訓練(lian)與推理階(jie)段的分布(bu),顯著緩(huan)解誤差積累問題。

3、KV緩存機(ji)制:引入(ru)鍵值緩存機(ji)制(KV-Cache),顯著提升(sheng)長(chang)視頻(pin)生(sheng)成的效率和一致性。該機(ji)制通過維護固定長(chang)度(du)的注(zhu)意(yi)力上下文(wen),實現無(wu)縫(feng)滾動(dong)生(sheng)成,支持無(wu)限時長(chang)的視頻(pin)輸出,解決(jue)了訓(xun)練(lian)與(yu)推理場景下上下文(wen)不一致的問題。基于此實現長(chang)時視頻(pin)的高(gao)效生(sheng)成而無(wu)需重復(fu)計算,單(dan)GPU上可實現25 FPS實時生(sheng)成。

Matrix-Game 2.0能(neng)夠以(yi)25 FPS的超快速度跨不同(tong)場景生成高(gao)質量的分鐘級視(shi)頻。昆侖萬維開源其模型權重和代碼庫,以(yi)推進交互式世界建模的研(yan)究。

結語:世界模型加速具身智能、游戲影視發展

以谷歌(ge)Genie等為代表的(de)世界模型(xing),正推動AI從內容(rong)生成(cheng)工具升(sheng)級為“世界構建者”,昆侖(lun)萬維開源的(de)Matrix系列是(shi)中國在空間智(zhi)能領域(yu)取得里程(cheng)碑進展。

隨著其最(zui)新迭代的Matrix-Game 2.0落地,具身智能體(ti)訓(xun)練與(yu)數據生成、虛擬游戲世界高效(xiao)搭建(jian)、影視及元宇宙內容生產等領(ling)域有望加速(su)發展,為中國AI產業開辟新范式。