時間輸入對于3D占用預測非常重要,而現有方法大多遵循傳統的感知、轉換和融合流程。即給定順序輸入信息,感知模塊獨立獲得每個幀的場景表示,例如BEV特(te)(te)征以及體(ti)素特(te)(te)征;并且轉換(huan)模塊根據自車(che)軌跡對(dui)齊多幀的時序(xu)特(te)(te)征信息,融(rong)合模塊融(rong)合對(dui)齊的特(te)(te)征表示以推斷當前的3D占用情況。這些(xie)方法未(wei)能考慮駕駛場(chang)景(jing)演變的固有連續(xu)性和簡單性。

為此,清華大學自動化系提出一個基于高斯世界模型的流式三維語義占用預測模型GaussianWorld,現已開源。與GaussianWorld相關的論文成果已投稿CVPR 2025,清華大學自動化系智能視覺實驗室(IVG)博士生左思成為論(lun)文一作。

清華開源GaussianWorld:基于高斯世界模型的3D占用預測模型 | 一作左思成博士主講預告

GaussianWorld采用顯式3D高斯作為場景表示,而不是傳統的隱式 BEV/Voxel 表示,這可以實現物體運動的顯式和連續建模。給定歷史 3D 高斯和(he)當前視覺輸入,GaussianWorld算法模型旨在預測(ce)(ce)場景如何演變并(bing)預測(ce)(ce)當前的(de)占用情況。

為(wei)了(le)證明提(ti)出的(de)GaussianWorld算(suan)(suan)法模型(xing)的(de)有效性,在nuScenes數據集上進(jin)行了(le)大量實驗(yan)。實驗(yan)表明,GaussianWorld 可以有效地預測場景演變,并在不(bu)引入(ru)額外計算(suan)(suan)的(de)情況(kuang)下(xia)將單幀占用率預測提(ti)高 2% 以上(mIoU)。與現有方法相比,該模型(xing)在不(bu)引入(ru)額外計算(suan)(suan)開銷的(de)前提(ti)下(xia),展示了(le)SOTA的(de)性能。

清華開源GaussianWorld:基于高斯世界模型的3D占用預測模型 | 一作左思成博士主講預告

1月13日晚上7點,智猩猩邀請到論文一作、清華大學智能視覺實驗室(IVG)博士生左思成參與「智猩猩新青年講座自動駕駛專題」第42講,主講《基于高斯世界模型的流式3D占用預測》。

講者

左思成,清華大學智能視覺實驗室(IVG)博士生

清華大學自(zi)動化系智能視覺(jue)實驗室(IVG)博(bo)士生,主(zhu)要研究方向(xiang)是計算(suan)機視覺(jue)和自(zi)動駕駛。

第 42 講

?主 題?

《基于高斯世(shi)界模型的流式3D占用預測》

?提 綱?

1、自(zi)動駕駛中的時(shi)序建(jian)模方法

2、基于世界模型的感(gan)知(zhi)任務范(fan)式

3、基于(yu)高斯世界模型(xing)的流式OCC預測

4、在(zai)世(shi)界模型與端到端自動駕駛上(shang)的思考(kao)

直 播 信 息?

直播時間(jian):1月(yue)13日19:00

成果

論文標題

《GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction》

論文鏈接

//arxiv.org/abs/2412.10373

論文鏈接

//github.com/zuosc19/GaussianWorld

如何報名

有講座直播觀看需求的朋友,可以添加小助手“陳新”進行報名。已添加過“陳新”的老朋友,可以給“陳新”私信,發送“自動駕駛42”進行報名。對于通過報名的(de)朋友,之后將邀請入群(qun)進行觀看和交流。

清華開源GaussianWorld:基于高斯世界模型的3D占用預測模型 | 一作左思成博士主講預告