智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 李水青

智東西8月6日消息,昨夜,谷歌DeepMind宣布推出通用世界模型Genie 3首個(ge)可實時交(jiao)互(hu)世(shi)界模型來了。

基于文本提示,Genie 3可(ke)以允許用戶(hu)以每秒24幀的速度,以720p的分辨率生成(cheng)長達數分鐘的交互(hu)式3D環境,Genie 2僅(jin)能(neng)生成(cheng)10到20秒。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

去年年底,谷歌DeepMind發布能生成各種可控制動作、可玩3D環境的大型基礎世界模型Genie 2,此次發布的Genie 3,是其第一個允許實時交互的世界模型,在一(yi)致性(xing)和真(zhen)實感(gan)方面(mian)相(xiang)較前代(dai)有提升。如(ru)下面(mian)的示例(li)中,Genie 3生成內容的機器人本體(ti)、周圍環境(jing)質感更佳:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

博客文章中,谷歌DeepMind放出了數十個Genie 3的生成案例,展示其在模擬(ni)世界物理特性、模擬(ni)自(zi)然世界、生(sheng)成動畫和小說建模、超越地理時間限(xian)制生(sheng)成內容的能力。此外,研究人員還將其應用到具身Agent研究,如指示Agent向Genie 3發送導(dao)航操(cao)作,實現在花園里(li)靠(kao)近(jin)軟管的任務:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

谷歌DeepMind?Genie 3與Genie 2、由神經模型驅動的游戲引擎GameNGen、視(shi)頻生成模型Veo對比,最突出(chu)的特點是其生成時長翻(fan)倍增長:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

此次,谷歌DeepMind宣布以有限研究預覽版的形式發布Genie 3,為一小(xiao)部分學者(zhe)和(he)創作者(zhe)提(ti)供(gong)早期使(shi)用機會(hui)。在博(bo)客的致謝部分,還(huan)出現了被(bei)谷歌挖來的OpenAI視頻生成工具Sora的聯合(he)負責人之(zhi)一蒂姆·布魯克(ke)斯(si)(Tim Brooks)。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

網友在谷歌DeepMind的X評論(lun)區瘋(feng)狂開(kai)啟夸夸夸模式,有網友將其的重(zhong)要(yao)性與ChatGPT、Sora發布(bu)對標:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

還有網(wang)友(you)認為(wei)這是3A游戲大作的未來,還能在(zai)VR、電(dian)視(shi)互動節目(mu)中(zhong)有很大應用場(chang)景(jing):

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻 1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

一位(wei)Reddit上的開發(fa)者認為Genie 3的發(fa)布,意味著理論(lun)上而言“只要(yao)有足夠的計算能力和實(shi)時(shi)數據……就可以(yi)讓整個(ge)世界變得可玩”。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

本文動圖均只截取了Genie 3生成內容的部分片(pian)段,完整案(an)例演示請查(cha)看(kan)原博客:

博客鏈接://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/?utm_source=x&utm_medium=social&utm_campaign=genie3

一、模擬真實世界物理特性、動植物逼真,動畫小說建模畫面自然

此前世界模型在很大程度上局限于建模狹窄的領域。Genie 1引入了一種生成各種2D世界的方法,Genie 2進一步在通用性上取得進展,可以生成種類繁多的豐富3D世界,現在Genie 3不(bu)僅在(zai)生成3D世(shi)界的真實性、一致性上取得進展,還引入了實時互(hu)動能力

以下是Genie 3生成的實時互動(dong)內容:

1、模擬世界的物理特性:復雜環境沒有失真

下面(mian)的案例中,3D世界在表現水蔓延(yan)到馬路(lu)上、海平面(mian)、燈光映(ying)照在水面(mian)的光影變化等都(dou)沒有失真。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

2、模擬自然世界:動植物表現逼真

Genie 3可以創建(jian)從動物到(dao)植物等(deng)各種(zhong)復雜且充(chong)滿活(huo)力的生態(tai)系統,如下面演示(shi)的庭院、湖泊(bo)、海底世(shi)界等(deng)。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

3、動畫和小說建模:動畫人物活靈活現

Genie 3還(huan)能創建(jian)動畫(hua)場景以及(ji)動畫(hua)人(ren)物,動畫(hua)人(ren)物的色(se)彩、形象都符(fu)合整體(ti)環境。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

4、突破時空界限:探索未知地點和過去時刻

Genie 3創建的內容可(ke)以超越地(di)(di)理和時間界限(xian),探(tan)索未知的地(di)(di)方或者過去的時代,如(ru)下面的翼裝飛行、山地(di)(di)騎(qi)車等場(chang)景。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

二、支持一個世界切換天氣、引入新角色,演示具身Agent應用潛力

除了導航輸入之外,Genie 3還支持基于文本的交互形式,谷歌DeepMind的博客將其稱為可提示的世界事件。也就是說,其可以改變已經(jing)生(sheng)成的(de)(de)世(shi)界,如(ru)改變當前世(shi)界的(de)(de)天氣條件、引入新物體等

這種能力還擴展(zhan)了(le)模型對反事實或假設場景的學習(xi),Agent可以(yi)從經驗中學習(xi)這些(xie)場景來(lai)處(chu)理(li)意外情況。

如下面的演(yan)示中,在給定的“草(cao)原”場景(jing)中,案例(li)演(yan)示可以看到(dao)棕熊、綠色(se)拖拉機(ji)、騎馬的人分別(bie)進入畫面。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

此外,為了測試Genie 3創建的(de)世界與(yu)未來Agent訓練的(de)兼容性,研究(jiu)人(ren)員為(wei)用于3D虛擬場景的(de)通(tong)用Agent SIMA生(sheng)成了世界(jie)。

在每個世界中,其都指示Agent完(wan)成不(bu)同(tong)任務,并通過向(xiang)Genie 3發送導航操(cao)作來實(shi)現(xian)這些目(mu)標(biao)。與(yu)其他(ta)環境(jing)一樣,Genie 3并不(bu)知道代(dai)理的目(mu)標(biao),而是根據代(dai)理的操(cao)作來模擬未來。

下面的“面包(bao)店”場景中,演示出分(fen)別給出了走進攪拌機、前往(wang)冷(leng)卻架、走到玻(bo)璃柜前的任務:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

在給定(ding)的“市場”環(huan)境中,案例分(fen)別演示了走進(jin)花攤、去面(mian)包師那(nei)里(li)等任務:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

在具身(shen)Agent的研(yan)究(jiu)領域(yu),研(yan)究(jiu)人員就可以(yi)選(xuan)擇一個世界設定,然后選(xuan)擇希望Agent實現的目(mu)標(biao)并觀(guan)察它如何實現目(mu)標(biao)。

基(ji)于Genie 3在(zai)(zai)保(bao)持(chi)一致性方面的(de)優勢,現(xian)在(zai)(zai)其(qi)可以執(zhi)行更長(chang)的(de)操(cao)作(zuo)序列,從而實現(xian)更復(fu)雜的(de)目標。

三、環境幾分鐘內可保持一致,Genie 3仍有五大局限性

Genie 3通過記(ji)憶已(yi)生成的(de)內容并進行長期推理,自學世界中的(de)物體(ti)如何(he)移動(dong)、下落和(he)互動(dong)。該(gai)模型是(shi)自回(hui)歸的(de),這意味著它一(yi)(yi)次(ci)只生成一(yi)(yi)幀,其必須(xu)回(hui)顧(gu)之前生成的(de)內容,才(cai)能(neng)決定下一(yi)(yi)步要做什么(me)。這是(shi)該(gai)架(jia)構(gou)的(de)關(guan)鍵部分。

為了(le)實(shi)(shi)現(xian)Genie 3生(sheng)(sheng)成內容高(gao)度可控(kong)且能實(shi)(shi)時交(jiao)互(hu),在每一(yi)幀的(de)(de)自回歸生(sheng)(sheng)成過程中,模(mo)型(xing)必(bi)須考慮先前生(sheng)(sheng)成的(de)(de)軌(gui)跡。例(li)如,如果用戶(hu)在一(yi)分鐘后再次(ci)訪問某個位置,模(mo)型(xing)必(bi)須參考一(yi)分鐘前的(de)(de)相關信(xin)息。

同時為了實(shi)現實(shi)時交互(hu)性,這種計算必須每秒進行多次,以響應(ying)新的用(yong)戶輸入。

想(xiang)要使AI生成的(de)世界具有沉浸感,生成內(nei)容必(bi)須(xu)在(zai)很長(chang)一段時(shi)間(jian)內(nei)保持(chi)物理一致性。然而(er),自回歸(gui)生成環(huan)境通常(chang)比生成完整視頻更(geng)難,因為誤(wu)差(cha)往往會隨著時(shi)間(jian)的(de)推移而(er)累積。

Genie 3的環境在(zai)幾(ji)分鐘(zhong)內仍(reng)能(neng)保(bao)持基本一(yi)致,視覺記憶可以追溯到一(yi)分鐘(zhong)前。如(ru)下圖所示的“建(jian)筑(zhu)物(wu)左側的樹木”,在互動過程中(zhong)始終保持一致:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

其博客提到,Genie 3的一致性是一項新興能力。NeRF和高斯分布等方法在實現一致的可導航3D環境同時,需要依賴于提供明確的3D表示,相比之下,Genie 3生(sheng)成(cheng)的(de)世界是根據世界描(miao)述和(he)用戶操(cao)作逐幀創建(jian)的(de),因此生(sheng)成(cheng)內容更為豐富、真(zhen)實

Genie 3通過(guo)記(ji)憶已生成(cheng)的(de)內容(rong)并進行長期推(tui)理,自學世(shi)界中的(de)物(wu)體如何移(yi)動、下(xia)落和互動。該(gai)模型(xing)是自回歸的(de),這(zhe)意味著它(ta)一次只生成(cheng)一幀,其必須回顧(gu)之前生成(cheng)的(de)內容(rong),才能(neng)決定(ding)下(xia)一步要(yao)做什么。這(zhe)是該(gai)架構的(de)關鍵部分。

谷歌(ge)DeepMind的博客中也提(ti)到了(le)Genie 3目前(qian)的局限性:

行(xing)動空(kong)間有限:盡管可觸發(fa)的世界事件允許進行(xing)廣(guang)泛的環境干預,但它們不一定由(you)Agent本身執行(xing),Agent可直(zhi)接(jie)執行(xing)的操作范圍目(mu)前(qian)受到限制(zhi);

與其(qi)他Agent的交(jiao)互和模擬(ni):準確建模共享(xiang)環境中多個獨立Agent之間的(de)(de)復雜交(jiao)互仍然是(shi)一個持續的(de)(de)研(yan)究挑戰;

準確表示真實世(shi)界的位(wei)置:Genie 3目(mu)前無法以(yi)完美的地理精(jing)度模(mo)擬(ni)真實(shi)世界的位置(zhi);

文本渲染:通(tong)常只有(you)在輸入世界描述中提供(gong)時才會生成(cheng)清晰易(yi)讀的文本;

交互時長(chang)有限:該模型目前支持(chi)幾(ji)分鐘的(de)持(chi)續交互,無法支持(chi)長達數小時的(de)交互。

在此基(ji)礎上(shang),谷歌(ge)DeepMind宣布(bu)Genie 3以有限研究預覽版的(de)形(xing)式(shi)發布(bu),使其能夠(gou)從其他(ta)學者處(chu)收集重要(yao)的(de)反饋和提供跨學科視角。

結語:谷歌DeepMind深耕模擬環境研究,或加速AI Agent訓練

此(ci)前十多(duo)年來,谷歌(ge)DeepMind一直致力于模(mo)(mo)擬環(huan)境領域的開創性(xing)研(yan)究,從訓練Agent掌握實(shi)時(shi)戰略(lve)游戲,?到開發用于開放式學(xue)習和(he)機器人(ren)技術的模(mo)(mo)擬環(huan)境,再到開發世界模(mo)(mo)型。

去年,其推(tui)出(chu)Genie 1和Genie 2兩大基礎世(shi)界模型,可以為Agent生成新的(de)環境,并發(fa)布(bu)視頻生成模型Veo 2和Veo 3。

可以看出(chu),這些AI系統能夠利用自身(shen)對世(shi)界的(de)理解來模(mo)擬(ni)世(shi)界的(de)各個(ge)方面,使Agent能夠預測環(huan)(huan)(huan)境將如何演變以及(ji)其行為將如何影響環(huan)(huan)(huan)境。谷歌(ge)DeepMind的(de)博客提到,世(shi)界模(mo)型(xing)是邁向通用人(ren)工智能(AGI)的(de)關鍵基石(shi),因為它們使得在豐富多樣的(de)模(mo)擬(ni)環(huan)(huan)(huan)境中訓練AI Agent成為可能。

從目前的(de)應(ying)用(yong)(yong)場(chang)景(jing)來看,Genie 3或(huo)許(xu)可以為機器人和自主系統等(deng)提供訓練空間并評估其表現。未來,這項技術或(huo)許(xu)能在(zai)我們邁(mai)向AGI的(de)過程中發揮(hui)關鍵(jian)作用(yong)(yong)。