智東西(公眾號:zhidxcom)
編譯 | 云鵬
編輯 | 漠影

智東西6月12日消息,剛剛,Meta發布了最新的開源世界模型V-JEPA 2,稱其在物理世界中實現了最先進的視覺理解和預測,從而提高了AI agents的物理推理能力。

楊立昆親自發布:Meta最強世界模型開源

Meta副總裁、首席AI科學家楊立昆(Yann LeCun)在官方視頻中提到,在世界模型的幫助下,AI不再需要數百萬次的訓練才能掌握一項新的能力,世界模型直接告訴了AI世界是怎樣運行的,這可以極大提升效率。

比如(ru)AI會預測我們舀出一(yi)勺東(dong)西(xi)是要放入(ru)另一(yi)個容器中:

楊立昆親自發布:Meta最強世界模型開源

AI甚至可以(yi)理解運動員的復雜(za)跳水動作,并(bing)進行(xing)動作拆(chai)解:

楊立昆親自發布:Meta最強世界模型開源

據Meta測試數據,V-JEPA 2在測試任務中每一步的規劃用時縮短至英偉達Cosmos模型的三十分之一,同時成功率還更高。據稱V-JEPA 2使用了一百多萬小時的視頻來進行(xing)自監督學習訓練。

楊立昆親自發布:Meta最強世界模型開源

在Meta看來,物理推理能力對于構建在現實世界中運作的AI agents、實現高級機器智能(AMI)非常重要,可以讓AI agents真正可以“三思而后行(Think Before Acts)”。

楊立昆親自發布:Meta最強世界模型開源

此外,Meta還發(fa)布了三個新的(de)基準測(ce)試,用于評估(gu)現有模型從視頻中推理物(wu)理世界的(de)能力。

昨天(tian)Meta剛剛曝出要成立新(xin)AI實(shi)驗室、招攬28歲華裔天(tian)才少(shao)年,并(bing)豪擲148億(yi)美元(yuan)(約合人民(min)幣(bi)1061億(yi)元(yuan))收(shou)購Scale AI 49%股份的(de)消息,今天(tian)Meta發布新(xin)世界模型,并(bing)讓楊立昆出來大講Meta AI重點研究方向和愿景做法(fa),頗有些(xie)要為招兵買馬(ma)“打廣(guang)告(gao)”的(de)意(yi)味。

論文地(di)址:
//ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

一、世界模型讓AI有“類人直覺”,強化AI agents理解、預測、規劃能力

理解(jie)世界物理規(gui)律聽起來并不復(fu)雜,但這是AI與人類差距非常大的一個方面(mian)。

比如你(ni)把球(qiu)(qiu)拋向(xiang)空中時(shi),知(zhi)道重力會(hui)將(jiang)其拉回地面;當你(ni)穿過一個(ge)陌生的(de)擁(yong)擠區域時(shi),你(ni)會(hui)一邊朝目的(de)地移動,一邊避免撞(zhuang)到沿(yan)途的(de)行人或障(zhang)礙物;打曲棍球(qiu)(qiu)時(shi),你(ni)會(hui)滑向(xiang)冰(bing)球(qiu)(qiu)即將(jiang)到達的(de)位置,而非它當前的(de)位置。

楊立昆親自發布:Meta最強世界模型開源

▲判斷籃球的(de)運動軌跡(ji)

但AI很(hen)(hen)難掌握這(zhe)(zhe)種能力,很(hen)(hen)難構建這(zhe)(zhe)種理(li)解物理(li)世(shi)界的“心(xin)理(li)模型”。

楊立昆親自發布:Meta最強世界模型開源

Meta的(de)世界模型,主要會強化(hua)AI agents的(de)理解、預測、規劃三(san)項核心(xin)能力。

二、關鍵架構創新大幅提升學習效率,高性能同時兼顧準確率

Meta使用(yong)視頻來(lai)訓練 V-JEPA 2,幫(bang)助模型學(xue)習物理世(shi)界(jie)中的(de)重(zhong)要規律,包括(kuo)人(ren)類如何(he)與物體(ti)互動、物體(ti)在物理世(shi)界(jie)中的(de)運動方(fang)式,以及物體(ti)之間的(de)相(xiang)互作(zuo)用(yong)。

據稱V-JEPA 2通(tong)過(guo)自監(jian)督學(xue)習,訓練了超過(guo)1百萬小時(shi)的視頻。

V-JEPA 2是一種聯合嵌(qian)入預(yu)測架構(Joint Embedding Predictive Architecture)模型,這(zhe)也是“JEPA”的名稱由(you)來。

楊立昆親自發布:Meta最強世界模型開源

模型(xing)包(bao)括兩個主(zhu)要組成部分(fen):

一個編碼器(qi),負責接(jie)收原始(shi)視頻,并輸出包含(han)對于觀察世界狀態語義上有用(yong)的(de)內容的(de)嵌入(embeddings)。

楊立昆親自發布:Meta最強世界模型開源

一個預測(ce)器,負責接收視頻(pin)嵌入和關于要(yao)預測(ce)的額外內容(rong),并(bing)輸出預測(ce)的嵌入。

楊立昆親自發布:Meta最強世界模型開源

V-JEPA 2跟傳統預測像素(su)的(de)(de)生成式(shi)模型有很大性能差異,根據Meta測試(shi)數據,V-JEPA 2執行任(ren)務時(shi)每個步驟的(de)(de)規劃(hua)用時(shi)縮短至(zhi)Cosmos模型的(de)(de)三十分之一(yi),不僅(jin)用時(shi)短,V-JEPA 2的(de)(de)成功率還(huan)更高(gao)。

V-JEPA 2的能(neng)力對現實世(shi)界agents理(li)解復雜(za)運動(dong)和時間動(dong)態(temporal dynamics),以及(ji)根據上下(xia)文線索預測動(dong)作都非常關鍵。

基于這(zhe)種預測能力,世(shi)界(jie)模(mo)型對于規劃給定目標的動(dong)作順序非常有用,比如從(cong)一個(ge)杯子(zi)在桌(zhuo)子(zi)上的狀(zhuang)態(tai)到杯子(zi)在桌(zhuo)子(zi)邊上的狀(zhuang)態(tai),中間要經歷怎樣的動(dong)作。

楊立昆親自發布:Meta最強世界模型開源

如(ru)今大部(bu)分AI都需要專業(ye)的(de)(de)(de)(de)訓練去解決特定的(de)(de)(de)(de)任務(wu),而V-JEPA這種自(zi)監督的(de)(de)(de)(de)方式,只需要為數不多(duo)的(de)(de)(de)(de)案例(li),就(jiu)可以掌握新(xin)的(de)(de)(de)(de)能力,在不同的(de)(de)(de)(de)任務(wu)和領域中實現更高(gao)的(de)(de)(de)(de)性能表現。

楊立昆親自發布:Meta最強世界模型開源

模型可以(yi)部署在機械臂上,去執行物(wu)體操作(zuo)類(lei)的任務,比(bi)如觸碰(peng)(Reach)、抓取(qu)(Grasp)、選擇和擺放(fang)物(wu)體(Pick-and-place),而不(bu)需(xu)要(yao)大量的機器人數據或者(zhe)針對性的任務訓練。

楊立昆親自發布:Meta最強世界模型開源

根據測試數(shu)據,V-JEPA 2在執(zhi)行這三類任務時的成功率(lv)分為別100%、45%和73%。

三、楊立昆展示世界模型應用場景,首發三個專項基準測試

世界模型可能會(hui)有哪些應用場景,楊立(li)昆(kun)也給(gei)大家做了一些展示。

世(shi)界(jie)模型加(jia)持下的AI agents,可以幫(bang)助(zhu)視障人群更好的認知世(shi)界(jie);

楊立昆親自發布:Meta最強世界模型開源

MR頭顯中的AI agents可以(yi)給(gei)更(geng)復雜的任務提供(gong)指導,比如讓(rang)教育(yu)更(geng)加的個性化;

楊立昆親自發布:Meta最強世界模型開源

AI編程助(zhu)手可以真正(zheng)理解一行新的(de)代碼會(hui)如何改變程序的(de)狀態或變量;

楊立昆親自發布:Meta最強世界模型開源

世界模型對自動化系統同(tong)樣非常重要,比如自動駕駛汽(qi)車和機器(qi)人;

楊立昆親自發布:Meta最強世界模型開源

Meta認為世(shi)界(jie)模(mo)型會(hui)為機器(qi)人(ren)開啟一個新的(de)時代(dai),讓現實世(shi)界(jie)中的(de)AI agents不(bu)需要(yao)學習天文數字的(de)訓練數據就可以做家務或體力(li)勞動。

除了發布V-JEPA 2,Meta還分(fen)享了三(san)個(ge)新基準測(ce)試(shi),用(yong)來(lai)幫(bang)助研究(jiu)界評(ping)估現有模(mo)型通過視頻學習和推理世界的能力(li):

1、IntPhys 2:用(yong)于測試模型(xing)在復雜(za)合成環境中的直觀物理理解能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。

2、一種(zhong)基于最小視(shi)(shi)頻對的(de)、感知捷徑的(de)物理(li)理(li)解視(shi)(shi)頻問答(da)基準(zhun)測試(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。

3、CausalVQA:面向視(shi)頻模型的(de)物理(li)基礎因果推理(li)基準測(ce)試(A Physically Grounded Causal Reasoning Benchmark for Video Models)。

基準測試地址:

IntPhys 2:
//ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

CausalVQA :
//ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

Shortcut-aware Video-QA Benchmark:
//ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

結語:AI認知世界提速,AI從數字世界加速走向物理世界

Meta二代世(shi)界模(mo)(mo)型的發布進一(yi)步優化了模(mo)(mo)型的性能和準(zhun)確率(lv),讓(rang)物理世(shi)界的AI agents可以(yi)更高效地執(zhi)行任(ren)務,而(er)不需要(yao)海量(liang)的數(shu)據訓練,這一(yi)方向可以(yi)說是(shi)目前AI圈關注的焦點賽道之一(yi)。

隨著數(shu)據瓶(ping)頸(jing)問題(ti)越來越凸顯,如何在底(di)層技術層面(mian)實現突破顯得更為(wei)關鍵,Meta在模型(xing)架構層面(mian)的創新(xin)是其世界模型(xing)的核(he)心優勢。

隨著如今(jin)越(yue)來越(yue)多的視頻(pin)模型(xing)發布(bu),AI逐漸從(cong)文本(ben)、圖像走向動態的視頻(pin),AI理(li)解世界、認識世界的速度不斷加快(kuai),從(cong)英偉達(da)、Meta、谷歌(ge)這(zhe)樣巨頭到各路創企,都對打(da)造世界模型(xing)饒(rao)有興致,世界模型(xing)之戰,或許(xu)將成為后續AI產(chan)業技術競爭的關(guan)鍵看點。

來源:Meta官網