4月1日-2日,2025中國生成式AI大會(北京站)「GenAICon 2025北京站」將在北京中關村東升科技園萬麗酒店盛大舉辦。中國生成式AI大會已成功舉辦三屆,現已成為國內人工智能領域最具影響力的產業峰會之一。

本次大會繼續由智一科技旗下智猩猩、智東西共同發起,以“大拐點 新征程”為主題,邀請到50+位重量級嘉賓同臺分享和交鋒,深入解構DeepSeek引發的變革狂潮,全面展示國內生成式AI重大進展。大會也是“智領未來”北京人工智能系列活動之一。

大會主會場首日將進行開幕式、GenAI應用論壇,次日全天將進行大模型峰會;分會場則會先后組織DeepSeek R1與推理模型技術研討會、AI智能體技術研討會和具身智能大模型技術研討會。其中,三場研討會為閉門制,主要面向持有閉門專享票、貴賓通票的觀眾開放。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

作為本次大會的三場技術研討會之一,具身智能大模型技術研討會將在4月2日下午進行,由主題報告和圓桌Panel兩個環節組成。

目前邀請到北京智源人工智能研究院研究員郝孝帥,北京大學在讀博士、RoboMamba一作劉家銘,清華大學ISRLab在讀博士生、星動紀元實習研究員郭彥江,清華大學TSAIL團隊博士生、RDT一作劉松銘,上海人工智能實驗室具身智能中心青年研究員汪汗青,群核科技科研算法專家汪仁涵6位來自學術界和工業界的青年學者和技術專家帶來主題報告。

圓桌Panel環節由郝孝帥老師、劉家銘博士、郭彥江博士、汪汗青老師以及光輪智能具身數據交付負責人甘宇飛5位嘉賓參與,其中,郭彥江博士作為特邀主持,主持研討會及圓桌Panel環節。

郝孝帥老師將為本次研討會帶來開場報告。郝孝帥老師目前是智源研究院的具身多模態大模型研究員,曾在CVPR和ICCV等頂級會議上獲得6項國際前3名的成績。本次報告將重點講解北大聯合智源研究院、港大等提出的統一具身多模態大腦模型RoboBrain。該模型首次實現了任務規劃-可操作區域感知-軌跡預測的三維能力融合,相關論文已收錄于CVPR 2025頂會。

北京大學聯合智平方、BAAI推出了高效的端到端VLA具身大模型RoboMamba,僅需調整0.1%的模型參數就能掌握操作技能,推理速度比現有VLA模型快3倍。劉家銘博士RoboMamba一作,論文已收錄于NeurIPS 2024。本次研討會劉家銘博士將從VLA 模型的輸入方式、VLA架構設計、VLA訓練策略、VLA輸出機制這四個方面進行深入討論,詳解RoboMamba。

清華大學ISRLab在讀博士生、星動紀元實習研究員郭彥江師從陳建宇教授。郭彥江博士參與的論文成果Advancing Humanoid Locomotion曾獲RSS 2024最佳論文提名獎。本次研討會郭博士將探討如何基于視頻世界模型構建通用的機器人操作策略,具體包括收錄于NeurIPS 2024頂會的成果Prediction with Action(PAD),以及Video Prediction Policy(VPP)等兩項成果。

清華大學TSAIL團隊開源的擴散基座模型RDT,擁有模型參數量1.2B,是目前最大的用于用于雙臂機器人操作的擴散基座模型,還曾登頂HF具身熱榜。劉松銘博士RDT一作,研究方向是具身智能和AI for Science。本次研討會劉松銘博士將以《雙臂機器人操作擴散大模型RDT》為主題帶來報告。

今年2月,上海AI Lab發布通用具身智能仿真平臺桃源2.0。在首個城市級大規模仿真平臺桃源1.0的基礎上,桃源2.0全新升級,具備大規模數據生產能力,數據采集方式實現了三大方面的革新,并可以多樣化和易用性適配多類型機器人。汪汗青老師作為主要負責人帶領實驗室團隊開發了桃源,提出了虛實貫通技術框架以系統化解決現存問題,以桃源2.0平臺作為關鍵紐帶,構建了”真實-仿真-真實”閉環技術路徑。

3月19日,被稱為“杭州六小龍”之一群核科技自主研發的空間理解模型SpatialLM正式開源。該模型突破了大語言模型對物理世界幾何與空間關系的理解局限,為具身智能提供空間理解基礎訓練框架。而群核空間智能解決方案SpatialVerse與SpatialLM模型之間協同合作,打通了”真實-仿真-真實” 的閉環路徑,為智能體提供無限迭代的感知-決策-行動閉環訓練,驅動具身智能從“有限訓練”邁向“無限進化。本次研討會群核科技科研算法專家汪仁涵將帶來報告,主題為《打破數據之困,讓具身智能走進物理世界》

一、具身智能大模型技術研討會議程

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

二、報告嘉賓及主題概要介紹

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:北京智源人工智能研究院研究員 郝孝帥

報告主題:統一具身多模態大腦模型RoboBrain

內容概要:本次報告我將從以下兩方面進行解讀:

(1)我們提出了ShareRobot,一個大規模、高質量、細粒度的異構數據集,涵蓋102個場景、12種機器人本體和107種原子任務,包含百萬級問答對。數據集標注了任務規劃、對象可操作區域和末端執行器軌跡等多維信息,填補了現有數據在多樣性、粒度和任務復雜性上的不足,為機器人學習與規劃提供了全面支持。

(2)基于ShareRobot,我們提出了RoboBrain,一個統一具身多模態大腦模型,首次實現任務規劃-可操作區域感知-軌跡預測的三維能力融合。RoboBrain將抽象指令(如“準備一杯茶”)映射為具象動作序列(如抓取、對準、傾倒),并同步生成可操作區域與精確軌跡,顯著提升機器人在具身長程操作任務中的能力。該模型通過多模態協同,解決了傳統方法在任務分解、感知與動作生成中的割裂問題,為復雜機器人操作提供了全新解決方案。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:北京大學在讀博士、 Robomamba一作 劉家銘

報告主題:構建魯棒且高效的視覺-語言-動作大模型RoboMamba

內容概要:本報告旨在探討如何構建更 魯棒且高效 的 視覺-語言-動作(VLA)大模型,并從以下四個方面展開深入討論:1)VLA 模型的輸入方式,2)VLA架構設計,3)VLA訓練策略,4)VLA輸出機制。同時,我們還將分析當前行業內 VLA 發展的最新趨勢,并介紹自研的 高效 VLA 模型—RoboMamba。具體來說,RoboMamba是一個高效的端到端VLA具身大模型,專為機器人場景優化設計,旨在實現高效的推理與操作能力。這一成果以題為《RoboMamba:具備機器人推理與操控能力的高效視覺-語言-動作大模型》的論文,發表在全球頂級學術會議NeurIPS 2024上。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:清華大學ISRLab在讀博士生、星動紀元實習研究員 郭彥江

報告主題:基于世界模型的通用機器人策略學習

內容概要:構建通用的操作模型是通用機器人最有挑戰性的一個部分,機器人需要具備豐富的物理先驗知識,才能泛化到新任務。視頻生成大模型在互聯網視頻數據上進行了大規模預訓練,能夠預測合理的未來發展軌跡,壓縮了豐富的物理先驗知識。本次演講主題是如何基于視頻世界模型構建通用的機器人操作策略,具體包括Prediction with Action(PAD),Video Prediction Policy(VPP)等兩項工作。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:清華大學TSAIL團隊博士生、RDT一作 劉松銘

報告主題:雙臂機器人操作擴散大模型RDT

內容概要:我們提出了一種用于雙臂機器人操作的擴散基座模型——Robotics Diffusion Transformer(RDT),該模型以擴散模型作為基礎,能夠有效地表示多峰的人類動作分布,并采用可擴展的Transformer架構來處理異構的多模態輸入,捕捉機器人數據中的非線性和高頻特性。為了解決數據稀缺問題,文章進一步引入了一種物理可解釋的統一動作空間,該空間可以統一各種機器人的動作表示,并保留原始動作的物理含義,方便學習可遷移的物理知識。通過這些設計,我們成功地在目前(截止文章公布時,下同)最大的多機器人數據集上對RDT進行了預訓練,并將其擴展到12億個參數,這是目前用于機器人操作的最大的基于擴散建模的基礎模型。最后,我們在一個自己收集的多任務雙臂數據集上對RDT進行了微調,以提高其雙臂操作能力。在真實機器人實驗中,RDT明顯優于現有方法。它能夠零樣本泛化到未見過的物體和場景,理解和遵循語言指令,僅需1~5個演示就能學習新的技能,并有效地處理復雜的靈巧任務。該項目的代碼、模型和數據均已開源,請訪問項目主頁//rdt-robotics.github.io/rdt-robotics/。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:上海人工智能實驗室具身智能中心青年研究員 汪汗青

報告主題:桃源2.0推動通用具身智能邁向虛實貫通之路

內容概要:在實現通用具身智能所面臨的關鍵挑戰中,首當其沖的是可用數據的稀缺問題:底層海量互聯網數據存在質量低、標注缺失等問題;頂層的同構真機數據成本極高,且存在多樣性問題。仿真數據雖具理論無限性,卻受限于數字資產、專家演示和虛實鴻溝難題。針對上述問題,我們提出”虛實貫通”技術框架以系統化解決現存問題,通過”桃源(GRUtopia)2.0″平臺作為關鍵紐帶,構建了”真實-仿真-真實”閉環技術路徑。桃源2.0具有以下特性:

– 模塊化仿真框架:支持導航、操作、運動控制等全任務類型,通過”三行代碼”快速定義具身任務,實現多任務開發平臺統一;

– 智能場景生成:集成十萬級場景庫與百萬級物體庫,結合自動化生成與隨機化工具,實現復雜場景一鍵構建與數據無限擴增;

– 高效數據工場:提供操作/全身控制遙操作工具與導航批量化采集系統,單機單日可獲取15,000條高質量導航軌跡,大幅降低多元數據采集門檻。

我們通過一系列實驗驗證了“虛實貫通”技術框架在突破仿真內容生產瓶頸的同時能夠有效彌合虛實鴻溝。相信通過相關模型、工具鏈的研發和開源開放,我們能夠和具身智能領域的研究人員共同探索一條新的通往通用具身智能的降本增效路徑。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:群核科技科研算法專家 汪仁涵

報告主題:打破數據之困,讓具身智能走進物理世界

內容概要:數據生成能力是具身AI的“創新引擎”!如何賦予AI跨模態認知與未知環境自適應能力,為智能體提供無限迭代的感知-決策-行動閉環訓練,驅動具身智能從“有限訓練”邁向“無限進化”。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

報告嘉賓:光輪智能具身數據交付負責人 甘宇飛

嘉賓介紹:甘宇飛現任光輪智能具身數據交付負責人,負責從資產生產、場景搭建、遙操作數據采集到算法驗證的全流程質量控制,保障具身資產合成技術方案的可行性及規模化落地。他在合成數據技術領域擁有豐富實踐經驗,技術方案曾覆蓋互聯網、自動駕駛及具身智能等方向。加入光輪前,甘宇飛曾擔任蔚來汽車4D BEV自動標注負責人,在螞蟻集團作為某海外事業線算法團隊負責人。

三、報名方式

具身智能大模型技術研討會將在大會次日分會場下午進行,主要向持有閉門專享票、貴賓通票的觀眾開放。

希望參加研討會的朋友,可以掃描下方二維碼,添加小助手“泡泡”咨詢和購票。已添加過“泡泡”的老朋友,給“泡泡”私信,發送“GenAICon25”即可。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025

除了閉門專享票、貴賓通票,大會還設有主會場觀眾票、主會場VIP票,在主會場的座位分布如下。有需要的朋友可以進行免費申請或購買。

囊括四大技術路線頂尖研究成果!具身智能大模型技術研討會最終議程公布 | GenAICon 2025