2024年已行進尾聲,但對于生成式AI而言,這又是波瀾壯闊的一年。Sora掀起視頻生成熱潮,多模態世界模型的研究熱度漸起。更具革命性的推理模型o1悄然出世,帶來的思維鏈CoT+強化學習這一新范式,正推動生成式AI邁入新的階段。
大語言模型仍在狂飆,但價格戰、營銷戰硝煙燃起,融資熱度正在降溫。不過行業賦能持續進行,應用層的興起更加受到期待。同時,大模型向邊端下沉的趨勢日趨明顯,AI手機、AI PC等AI硬件紛紛站上風口。GPT-4o的出現,將輕量化模型和端側大模型推向新高度之余,端側設備的交互革新也有了前進方向。不止AI硬件,大模型驅動下的具身智能更是熱度空前,人形機器人正開啟星辰大海。
作為支撐大模型運行以及生成式AI應用開發的關鍵,AI Infra走到了臺前,從智算集群到基礎軟件,發展勢頭強勁,但挑戰不少。
在上述背景下,2024中國生成式AI大會(上海站)「GenAICon 2024」將于12月5-6日在上海中星鉑爾曼大酒店盛大舉辦。中國生成式AI大會已成功舉辦兩屆,迅速成長為國內生成式AI領域最具影響力的產業峰會之一。
此次也是中國生成式AI大會首次登陸上海舉辦。大會由智一科技旗下智能產業第一媒體智東西、AI與硬科技知識分享社區智猩猩共同發起主辦。上海市人工智能行業協會為大會的指導單位。
大會上海站以“智能躍進 創造無限”為主題,50+位嘉賓將帶來致辭、演講、報告和對話討論,基于前瞻性視角解構和把脈生成式AI的技術產品創新、商業落地解法、未來趨勢走向與前沿研究焦點。
上海站由“主會場峰會+分會場研討會+展覽區”組成。主會場將進行大模型峰會、AI Infra峰會,分會場將進行端側生成式AI技術研討會、AI視頻生成技術研討會和具身智能技術研討會。展覽區則緊鄰會場門口設置,14家企業將進行技術產品展示。

其中,端側生成式AI技術研討會將于12月5日下午進行,AI視頻生成技術研討會于12月6日上午進行,具身智能技術研討會于12月6日下午進行。
目前,分會場三場研討會邀請到17位來自學術界和工業界的青年學者和技術專家與會,并帶來主題報告和圓桌Panel。今天將為大家正式揭曉分會場研討會的完整議程。
一、分會場研討會完整議程

二、端側生成式AI技術研討會報告介紹
本次研討會將于12月5日下午進行,目前邀請到上海人工智能實驗室博士后研究員羅根,西湖大學工學院助理教授王歡,聯想集團首席研究員、聯想研究院人工智能實驗室研發總監師忠超,vivo AI全球研究院AI技術總監李方圓,愛芯元智智慧IoT事業部產品總監吳煒5位青年學者和技術專家帶來報告。
主題報告環節結束后,商湯科技研究院模型計算部系統研究員雷丹將受邀參與并主持圓桌Panel。

報告嘉賓:上海人工智能實驗室博士后研究員 羅根
報告主題:《多模態大模型的高效感知、建模與計算》
內容概要:近年來,多模態大模型的不斷進步也對端側設備的部署和使用提出了更大的要求。針對該問題,羅根博士將從感知、建模與計算三個方面進行深入探討:在感知層面,主要介紹通過混合分辨率視覺融合實現高效的視覺感知;在建模層面,主要介紹通過內生視覺專家實現緊湊的一體化多模態建模;在計算層面,主要介紹通過混合深度計算實現稀疏的模型動態推理。

報告嘉賓:西湖大學工學院助理教授 王歡
報告主題:《神經網絡剪枝、蒸餾在Efficient AI中的發展與應用》
內容概要:AI模型深刻改變了我們的生活,但這些模型無論是訓練還是測試階段都需要消耗大量資源,導致速度慢、能耗高、存儲及運存冗余等問題,解決這些問題亟需提高AI模型的效能(Efficiency),因此需要Efficient AI。Efficient AI涉及軟硬件、算法等多個維度的協同設計和優化,硬件不足時往往可以通過在算法上的改進來補齊短板。在算法層面,要想實現提高效能,需要解決兩個問題:(1)效能如何提高,(2)性能如何保證。前者一般是通過縮小模型大小來實現,最具代表性的方法就是神經網絡剪枝(Pruning);后者一般是通過重訓練(Retraining)、微調(Fine-tuning)得到,最具代表性的方法就是知識蒸餾(Knowledge Distillation)。
在這次交流中,我將介紹剪枝和蒸餾的主要歷史背景和當前研究現狀,結合我的研究經歷,重點介紹如何利用剪枝和蒸餾實現對神經輻射場(NeRF)、文生圖(T2I)等任務進行效能提升。其中文生圖加速的工作SnapFusion(NeurIPS’23)是世界上首個端上文生圖時間小于2s、且性能可以對標SD-v1.5的模型。

報告嘉賓:聯想集團首席研究員、聯想研究院人工智能實驗室研發總監 師忠超
報告主題:《聯想AIPC端側智能體》
內容概要:本次演講將重點介紹聯想AIPC端側智能體的獨特架構,旨在通過開發端側智能體,顯著提升端側大模型在處理復雜任務和場景應用時的性能。我們將深入探討聯想端側個人智能體如何結合大模型的關鍵能力定向增強與端側異構加速技術,在設備資源有限的條件下達到卓越的性能。此外,本次演講也將展示聯想如何運用混合意圖理解與復雜任務自動分解策略等創新方法,優化個人知識庫及工具庫的應用,進而為用戶提供更智能、更個性化的服務體驗。

報告嘉賓:vivo AI全球研究院AI技術總監 李方圓
報告主題:《智能手機的未來:端側大模型重塑用戶體驗》
內容概要:手機是從早到晚伴隨我們工作、學習、生活、娛樂最長時間的智能設備。在AIGC時代,現有的手機AI功能已無法滿足用戶對更高層次體驗的追求,主要表現在單點功能與系統融合不夠緊密、機械的被動執行缺乏主動性,通用的功能難以與用戶個性化需求相結合等不足。手機終端大模型憑借其強大的語義理解、語言生成和邏輯推理能力,一方面能夠大幅提升傳統AI功能的準確性和效果,另一方面能夠理解執行用戶更加復雜的指令,結合用戶使用手機的情景,提供更加主動、個性化的智能服務。
本次演講,將分享vivo如何從傳統的AI時代邁向大模型AI時代的技術演進之路。圍繞記憶、端側化、主動執行3個方面探索更懂用戶、更懂手機、更加主動的個人智能的應用場景,并與大家揭秘背后的核心技術藍心端側大模型的構建思路與方案。

報告嘉賓:愛芯元智智慧IoT事業部產品總監 吳煒
報告主題:《多模態大模型在端側的創新實踐與挑戰》
內容概要:隨著大模型的發展,AI已從簡單的圖像分類識別功能,升級為對視頻、音頻、文字等多模態信息的整合分析,實現對內容更深刻的理解。多模態大模型已成為推動各行各業發展的重要力量。然而,要將大模型應用于端側設備,面臨著算力、帶寬、功耗和成本之間的多重平衡挑戰。愛芯元智致力于打造世界領先的AI芯片,積極布局多模態大模型,助力大模型在端側的普及和高效部署。
本次演講,將通過展示實際應用案例,探討多模態大模型如何在更廣泛的應用場景中發揮更大的價值。同時,還將與行業伙伴共同探索大模型在端側應用的無限可能,推動“普惠AI,造就美好生活”的使命。
三、AI視頻生成技術研討會報告介紹
本次研討會將于12月6日上午進行,目前邀請到中存算董事長陳巍,上海交通大學人工智能研究院助理教授晏軼超,新壹科技AI算法主任架構師李璋,井英科技聯合創始人、CTO王健,曠視研究院高級研究員李華東5位青年學者和技術專家帶來報告。
主題報告環節結束后的圓桌Panel,將由中存算董事長陳巍,上海交通大學人工智能研究院助理教授晏軼超,井英科技聯合創始人、CTO王健,以及曠視研究院高級研究員李華東一起帶來。

報告嘉賓:中存算董事長 陳巍
報告主題:《視頻大模型架構對比及長序列模型加速》
內容概要:隨著大模型技術的快速發展,視頻大模型(VLM)正與短視頻產業結合并迎來新的爆發機遇,逐漸成為互聯網應用的熱點。
本次分享從視頻大模型與世界模型的角度,對比主流視頻生成大模型架構,探討視頻生成的關鍵技術(包括NaViT、RADM等),分析視頻生成類大模型的主要挑戰與發展趨勢;探討內存墻(Memory Wall)和通信墻對視頻大模型GPGPU/TPU集群訓練和部署的挑戰,并針對這類視頻長序列模型的算力芯片級訓練部署,結合具體項目給出軟硬結合的解決方案與系統經驗。

報告嘉賓:上海交通大學人工智能研究院助理教授 晏軼超
報告主題:《先驗引導的三維數字人視頻生成》
內容概要:“人”一直是視頻生成的核心對象,面對大規模視頻的生成需求,利用生成式人工智能技術產生高擬真,規模化的虛擬數字人正逐漸成為研究熱點。三維高斯、大模型等技術在過去一年快速發展,并與數字人技術進行了廣泛結合,本次報告將從數字人重建、生成、編輯等方向介紹數字人視頻生成領域的最近進展,對三維數字人技術的發展趨勢進行探討。

報告嘉賓:新壹科技AI算法主任架構師 李璋
報告主題:《視頻垂直大模型在智能數字人生成中的應用》
內容概要:在生成式AI技術蓬勃發展的背景下,智能數字人已成為內容創作、虛擬助手和人機交互等領域的重要應用之一。然而,傳統生成模型在高精度、多模態的智能數字人生成中仍面臨諸多挑戰。為此,垂直領域的大模型提供了一條全新路徑。
本次演講,首先會介紹從通用大模型到垂直大模型的演進,之后將著重講解新壹視頻大模型的整體架構設計及其在數字人視頻生成與優化中的核心技術突破;此外,還將對智能數字人生成的技術難點,包括數字人生成中實現自然語言驅動動作與表情生成的關鍵技術等進行深入分析,并分享視頻垂直大模型驅動的智能數字人在相關領域的典型應用案例。

報告嘉賓:井英科技聯合創始人、CTO 王健
報告主題:《AI短劇拐點背后的技術突破》
內容概要:自今年2月OpenAI發布Sora起,視頻生成大模型成為了熱點方向。但其具體落地的業務場景卻一直不明確。近期,井英科技通過視頻生成模型實現了100分鐘以上短視頻的制作,并成功實現了用戶付費觀看的商業模式。
本次分享將介紹AI短劇從最初的不可行到現如今可行的關鍵技術突破,并探討了除視頻生成大模型之外的其他關鍵技術進展。

報告嘉賓:曠視研究院高級研究員李華東
報告主題:《可控人物視頻生成》
內容概要:短視頻、影視和游戲動畫創作正在迅速發展。然而,傳統的視頻制作過程耗時耗力,通常需要大量的人工后期編輯。視頻生成大模型算法提供了一種低成本、高效的高質量視頻內容生成解決方案。但視頻生成算法生成的內容可控性不足,限制了其實際應用的有效性。因此,如何實現視頻生成內容的可控性仍是一大關鍵挑戰。
在本次報告中,我將介紹 MegActor 系列工作,這是一種支持混合模態控制的人像視頻生成算法。該算法支持角色自定義(包括真實人物、二次元人物和游戲人物等),并能夠通過視頻、音頻和文本輸入實現單獨和混合控制。其功能涵蓋了控制角色說話、唱歌和生成表情動畫等。MegActor 系列是社區內的首個開源可控人物視頻生成大模型,將持續優化以推動技術的不斷發展。
四、具身智能技術研討會報告介紹
本次研討會將于12月6日下午進行,目前邀請到上海人工智能實驗室青年科學家王泰,上海科技大學信息科學與技術學院助理教授、博士生導師顧家遠,上海交通大學在讀博士、穹徹智能實習研究員呂峻,國地共建具身智能機器人創新中心數據智能負責人李廣宇,哈爾濱工業大學計算學部在讀博士王雪松,中國科學院空天信息創新研究院特別研究助理姚方龍6位青年學者和技術專家帶來報告。
主題報告環節結束后的圓桌Panel,也將由上述6位嘉賓一起帶來。

報告嘉賓:上海人工智能實驗室青年科學家 王泰
報告主題:《大規模具身多模態三維感知》
內容概要:近年來,大模型的成功以及模仿學習、強化學習等方法的突破持續推動著具身智能的快速發展。但這一領域仍然面臨著數據匱乏的核心問題,大規模訓練和評測仍存在客觀瓶頸。生成式 AI 的進展為解決這一問題提供了重要路徑。
本報告將聚焦于三維場景中具身多模態感知相關的具體任務,詳細介紹團隊利用多模態大模型的生成能力設計三維多模態數據的自動化標注管線,從而形成大規模三維物體、場景在不同粒度全方位的語料標注,構建帶有顯式三維建模和空間感知能力的具身感知基礎模型,并最終利用大模型實現更符合人類判斷的自動化評測。最后,報告將展望生成式 AI 在機器人交互數據方面的巨大潛力,同時探討其潛在的局限性。

報告嘉賓:上海科技大學信息科學與技術學院助理教授、博士生導師 顧家遠
報告主題:《服務于具身智能的仿真評估平臺和數字資產》
內容概要:在具身智能領域,通用機器人決策模型的開發取得了顯著進展。然而,收集真實世界的訓練數據和對這些模型進行真實環境下的評估仍然成本高昂。仿真技術提供了一種可行的替代方案,但其有效性高度依賴于多樣且逼真的數字資產。傳統上,這些資產主要由游戲產業創建,但隨著具身智能的發展,對高質量數字資產的需求激增,以提高仿真環境的多樣性和逼真度。這引發了一系列關鍵問題:這些資產的真實程度應達到何種水平?我們如何有效地創建這些仿真環境?在此過程中,哪些工具是必不可少的?
在本次報告中,我將介紹最近的工作SimplerEnv,一個專為評估基于真實世界數據訓練的決策模型而開發的仿真環境平臺。該平臺支持對多種通用機器人操作模型的評估,如RT-1和Octo。此外,我還將討論另一個研究成果Point-SAM,一個3D原生工具,能夠對三維部件和物體進行交互式分割。理解物體的功能性部件對具身智能的研究至關重要,這一工具為此提供了重要支持。

報告嘉賓:上海交通大學在讀博士、穹徹智能實習研究員 呂峻
報告主題:《Real2Sim2Real:一種基于多信息源的具身操作技能開發系統》
內容概要:數據是具身智能在今天面臨的核心問題之一。如何利用來自不同信息源的數據,例如仿真數據、人類演示數據、靜態視覺數據等,構建數據金字塔,共同實現具身操作技巧開發,降低對真實機器人數據的依賴與數據成本成為值得關注的課題。過去幾年,我們構建了包含Real2Sim、Learn@Sim、Sim2Real模塊的具身智能系統,旨在通過各類感知技術對現實物理世界進行建模,基于建模在人類演示數據、自然語言提示詞等的指導下于仿真環境中學習開發特定的機器人操作技巧,并將仿真中學習到技能遷移到真實環境中。相關成果發表在IJRR、RSS、CoRL、ICRA等期刊與會議上,曾獲選RSS 2023 Best System Finalist。

報告嘉賓:國地共建具身智能機器人創新中心數據智能負責人 李廣宇
報告主題:《數據視角下的具身操作》
內容概要:數據稀缺是目前困擾具身操作研究的共識。從各種機器人整機、機械臂、靈巧手等本體廠家紛紛推出的遙操作采集系統,到以UMI為代表的低成本采集設備,再到各類人類操作動作捕捉方案,以及各種仿真數據合成方法。如何高效的獲取具身操作數據,已經成為學術界和產業界的研究重點。
另一方面,針對不同途徑獲取的數據,具身數據金字塔的概念已經廣為傳播:下層是數據量大、獲取成本低,但單位價值較低的互聯網數據和仿真合成數據;頂層是采集成本昂貴,單位價值高的真機遙操作數據;而中間層是介于真機遙操作和仿真合成之間的,人類動作捕捉數據和仿真遙操作數據。同時當前的機器人數據中,本體構型豐富多樣,傳感器配置各異。如何有效融合多種來源,多種本體的具身數據,也是研究者和工程師的關注點。
本次報告中,我將梳理具身數據方向的各種技術路線,并介紹具身智能國創中心在數據方面的進展,包括數據采集和訓練基地建設情況、數據集開源開放情況,以及一些圍繞數據融合方向的探索和嘗試。

報告嘉賓:哈爾濱工業大學計算學部在讀博士 王雪松
報告主題:《具身智能大模型研究的關鍵問題與展望》
內容概要:隨著深度學習、大模型技術的突破性進展,人工智能的發展從感知智能和認知智能,逐步向能夠與真實物理環境進行交互的具身智能階段發展,并在大模型在多種任務上的強大泛化能力和人形機器人對于人類社會場景的適應能力的基礎上,有望通過具身智能的發展,最終實現通用人工智能。不過,具身智能為我們帶來希望的同時,也更多的帶來了挑戰,機器人如何感知世界、理解世界?如何擁有對自己行為的認知?如何高效合理的運動?等等。
本次報告將從大模型技術和人形機器人技術是如何推動具身智能發展的角度進行切入,闡述當前大模型技術在解決具身智能問題時的諸多不足,進而詳解具身智能大模型在感知、規劃、導航、乃至機器人操控方面有哪些亟待研究的關鍵問題,同時也將對未來具身智能如何更好發展做出展望。

報告嘉賓:中國科學院空天信息創新研究院特別研究助理 姚方龍
報告主題:《萬物具身:耦合空間智能與具身智能的復空間具身體系》
內容概要:空間智能旨在開發理解三維物理世界的模型,模擬物體物理特性、空間位置和功能,具身智能通過賦予智能“身體”,與環境交互反饋中實現智能增長和環境自適應,二者既有區別又相互補充。本報告旨在嘗試聯結空間智能與具身智能,構思出“萬物具身(Embodiment-of-Objects)”概念,設計了復空間具身體系(Multiverse Embodied System)計算范式,探索了“超圖+空天世界模擬器+空天世界模型”的研究路線,初步形成思維超圖引導的智能體世界模型、異質超圖引導的智能體關聯導航、時空超圖引導的智能體預測規劃等關鍵技術,推動從單體智能向空天地海任務、環境、場景耦合的體系智能演進。
五、報名進入最后階段,立即搶票參加研討會
分會場三場研討會主要面向大會購票用戶及定向邀請的用戶開放。
希望到現場參加研討會的朋友,可以掃描下方二維碼,添加小助手“泡泡”進行咨詢。已添加過“泡泡”的老朋友,給“泡泡”私信,發送“GenAI24”即可。
