自動(dong)駕(jia)駛新(xin)青年講座」由智東西公開課(ke)企(qi)劃,致(zhi)力于邀請全(quan)球知名高(gao)校(xiao)、頂(ding)尖研(yan)(yan)究機構以及優秀企(qi)業的新(xin)青年,主(zhu)講在環境感知、精準定位、決策規(gui)劃、控(kong)制執行(xing)等自動(dong)駕(jia)駛關鍵(jian)技術上(shang)的最新(xin)研(yan)(yan)究成果和(he)開發(fa)實踐。
「自動駕駛新青年講座」目前已完結20講,錯過往期講座直播的朋友,可以點擊文章底部“閱讀原文”進行回看!
有興(xing)趣分享的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。
在自(zi)動(dong)(dong)駕駛(shi)領域,由(you)于單模態(tai)數據的(de)感知存(cun)在固有(you)缺陷(xian),基(ji)于多模態(tai)的(de)融合感知技術(shu)已成為了眾多自(zi)動(dong)(dong)駕駛(shi)企業及(ji)團隊研究的(de)核心之(zhi)一。但(dan)由(you)于LiDAR容易(yi)受極端天氣的(de)影響,且與相機(ji)(ji)相比價格昂貴,因此沒有(you)被(bei)廣泛采(cai)用。然而,相機(ji)(ji)捕(bu)捉的(de)2D圖(tu)像和LiDAR 3D點云特(te)征之(zhi)間仍存(cun)在較大差異,基(ji)于多視角相機(ji)(ji)的(de)3D目標(biao)檢測依然是一個(ge)具有(you)挑戰性的(de)問題。
基于自(zi)監(jian)督、多模態數(shu)據(ju)(ju)的通用預訓練方法能(neng)夠(gou)盡(jin)可能(neng)多的學(xue)習到通用先(xian)驗知識(shi),通過微調(diao)實(shi)現知識(shi)遷移。它能(neng)夠(gou)顯(xian)著降低下游任務(wu)對標注數(shu)據(ju)(ju)的依賴,提高模型(xing)在小(xiao)數(shu)據(ju)(ju)集(ji)上(shang)的泛化能(neng)力。這(zhe)類方法在2D感知任務(wu)上(shang)取得(de)了顯(xian)著進(jin)展,但在基于視覺的BEV感知模型(xing)方面還尚未獲得(de)更多關注。
針對這一問題,香港中文大學多媒體實驗室(MMLab)在讀博士劉吉豪等研究人員詳細對比了現有的預訓練算法在基于視覺的BEV感知模型上的表現,提出了一種基于幾何增強的圖像掩碼預測算法GeoMIM,來增強視覺模型的BEV感知和幾何理解能力。通過掩碼預測將LiDAR所蘊含的豐富幾何表征遷移到視覺模型中。經過預訓練的視覺模型可廣泛應用于各種3D檢測、分割等下游任務,并且在不同的數據集間具有可遷移性。GeoMIM算法相關成果的論文收錄在?ICCV 2023上。
8月25日10點,「自動駕駛新青年講座」第21講邀請到論文一作、香港中文大學在讀博士劉吉豪參與,主講《面向BEV感知與幾何理解的視覺骨架預訓練》。
講者
劉吉豪,香(xiang)港中文(wen)大學電子(zi)工(gong)程系,多(duo)媒體實驗室(MMLab)在讀博士(shi),師從李(li)鴻升教授(shou)。主要(yao)研究方(fang)向為基于自監(jian)督、多(duo)模(mo)態的視覺基礎模(mo)型預訓練(lian)。在ICCV、CVPR、ECCV等(deng)會議(yi)上(shang)發表多(duo)篇論(lun)文(wen),曾獲(huo)得LFR Challenge第(di)一名,NIST FRVT第(di)一名。
第21講
主 題
《面向BEV感(gan)知與幾何理(li)解的視覺骨架預(yu)訓練(lian)》
提 綱
1、2D感知模型預訓練算法及其在BEV感知上的應用
2、利用激光雷達網絡的BEV知識蒸餾算法研究
3、面向幾何理解下游任務的表征預訓練算法GeoMIM
4、結合GeoMIM預訓練模(mo)型的下(xia)游應用
直 播 信 息
直播時間:8月25日10:00
直播地點:智東西公開課知識(shi)店鋪
成果
論文標題
《Towards Better 3D Knowledge Transfer via Masked Image Modeling forMulti-view 3D Understanding》
論文鏈接
//arxiv.org/abs/2303.11325