「自動駕駛新青年講座」由智猩猩企劃,致力于邀請全球知名高校、頂尖研究機構以及優秀企業的新青年,主講在環境感知、精準定位、決策規劃、控制執行等自動駕駛關鍵技術上的最新研究成果和開發實踐。

使用生成模型來合成新數據已成為自動駕駛領域解決數據稀缺問題的重要途徑。然而現有方法雖能夠提升感知模型的性能,但卻未能改善端到端自動駕駛模型的規劃性能,因為生成的視頻通常少于8幀,且存在空間和時間的一致性的問題。

為此,理想汽車智駕團隊聯合西湖大學等提出了一種基于擴散模型的可控長視頻生成的方法Delphi。與Delphi相關的論文目前正處于NeurIPS 2024的投稿階段。其中,西湖大學助理教授于開丞老師為通訊作者,西湖大學和浙江大學聯培博士、理想汽車實習研究員馬恩慧為論文一作。

釋放端到端自動駕駛泛化性!理想汽車聯合西湖大學提出多視角長視頻生成方法Delphi | 講座預告

多視角長視頻生成方法Delphi主要包括以下兩個模塊來提升一致性:1) 具有跨多視圖的共享噪聲建模機制以增加空間一致性;2)特征對齊交互模塊以實現精確的可控性和時間一致性。該方法能夠生成多達40幀的視頻而不失去一致性,約為現有最先進方法的5倍。

此外,該團隊進一步設計了failure case驅動的框架來高效進行數據增強。通過多輪問詢策略,結合VLM分析失敗原因;利用定向多樣化生成策略,結合使用Delphi的可控生成能力,定向生成與failure case相關的場景。

釋放端到端自動駕駛泛化性!理想汽車聯合西湖大學提出多視角長視頻生成方法Delphi | 講座預告

實驗表明,Delphi生成的長視頻質量更高,超越了現有最先進的方法。該方法通過僅生成訓練集大小的4%數據,將碰撞率從0.33降低到0.27,改善了自動駕駛模型的感知和預測能力,并將端到端自動駕駛模型的規劃性能提升了25%。

8月23日晚7點,智猩猩邀請到論文一作、西湖大學和浙江大學聯培博士、理想汽車實習研究員馬恩慧參與「智猩猩自動駕駛新青年講座」第38講,主講《利用長視頻生成模型釋放端到端自動駕駛泛化性》。

講者

馬恩慧
西湖大學和浙江大學聯培博士、理想汽車實習研究員

馬恩慧博士目前是西湖大學和浙江大學聯培項目的一年級博士生,碩士畢業于天津大學智算學部。她的研究方向包括可控視頻生成,三維場景理解等,曾在ICCV學術會議上發表研究成果。

第 38 講

主 題

《利用長視頻生成模型釋放端到端自動駕駛泛化性》

提 綱

1、利用合成數據訓練端到端自動駕駛模型存在的問題

2、基于擴散模型的多視角長視頻生成方法Delphi

3、利用failure-case驅動框架增強端到端模型泛化能力

4、nuScenes數據集上的實驗結果及Demo演示

直 播 信 息

直播時間:8月23日19:00

直播地點:智猩猩GenAI視頻號

成果

論文標題

《Unleashing Generalization of End-to-End AutonomousDriving with Controllable Long Video Generation》

論文鏈接

//arxiv.org/abs/2406.01349

項目地址

//westlake-autolab.github.io/delphi.github.io/

直播預約

本次講座將在智猩猩GenAI視頻號進行直播,歡迎預約~

入群申請

本次講座組建了學習交流群。加入學習交流群,除了可以觀看直播,并提前拿到課件外,你還能結識更多研究人員和開發者,所提問題也將會優先解答。

希望入群的朋友可以掃描下方二維碼,添加小助手陳新進行申請。已添加過陳新的老朋友,可以給陳新私信,發送“自動駕駛38”進行申請。

釋放端到端自動駕駛泛化性!理想汽車聯合西湖大學提出多視角長視頻生成方法Delphi | 講座預告