今年9月起,智東西公開課品牌全新升級為智猩猩。智猩猩定位硬科技講解與服務平臺,提供公開課、在線研討會、講座、線上閉門會、峰會等線上線下產品。
「線上閉門會」由智猩猩全新升級推出,將邀請行業、領域專家擔任出品人進行策劃,探討人工智能、自動駕駛領域中的最新技術研究與應用。
隨著深度學習技術的飛速發展,尤其是最近涌現出的大型基礎模型,人工智能領域正在發生翻天覆地的變化。這些模型在圖像識別、自然語言處理等各種任務上取得了顯著的突破,顯示出巨大的潛力。然而,這些大模型往往具有龐大的參數量、計算量和功耗,這給它們的實際應用帶來了一定的挑戰。特別是在資源受限的環境中,如何實現高效深度學習成為了一個亟待解決的問題。
為了解決這一問題,許多研究者開始關注大模型的微調以及邊緣設備上的應用。通過優化訓練方法、設計高效算法以及利用邊緣設備的資源,研究者們試圖降低大模型的計算成本,提高其在實際應用中的性能。
12月5日上午10點,智猩猩AI教研組推出「大模型微調與推理部署線上閉門會」。本次閉門會由北京航空航天大學人工智能研究院助理教授郭晉陽參與出品。郭晉陽同時也是國家級青年人才、碩士生導師,主要研究方向為輕量深度學習、邊緣智能計算,相關技術成果已在港中文-商湯 Open-MM、亞馬遜 DGL、百度飛槳等多個開放平臺中集成驗證,并在商湯科技業務場景中上線應用。
本次閉門會,Monash University 長聘助理教授莊博涵、麻省理工學院在讀博士朱力耕和商湯科技研究副總監龔睿昊參與主講。他們將分別圍繞主題《大模型的高效微調和部署》、《邊緣設備上的大模型微調訓練》和《大語言模型量化和 LightLLM 高性能推理部署系統設計》,從不同的角度探討如何提高大模型的效率和性能,并為實際應用場景提供有效的解決方案。

出品人
郭晉陽,北京航空航天大學人工智能研究院助理教授、國家級青年人才、碩士生導師;主要研究方向為輕量深度學習、邊緣智能計算;近年來,主持國家自然科學基金青年基金、科技創新2030重大項目子課題等多個重點課題項目;發表TIP、CVPR等國際頂級期刊和會議論文20余篇;擔任TPAMI、IJCV等國際頂級期刊審稿人與CVPR、ICCV等國際頂級會議程序委員會委員;榮獲ICCV Doctoral Consortium、無人機視覺檢測挑戰賽全球亞軍等榮譽獎項;作為專家組成員參與國內外標準制定2項,在國際會議上組織專題研討會2次;相關技術已在港中文-商湯Open-MM、亞馬遜DGL、百度飛槳等多個開放平臺中集成驗證,并在商湯科技業務場景中上線應用。
主題介紹
Monash University 長聘助理教授莊博涵:大模型的高效微調和部署
深度學習,尤其是最近涌現的基礎大模型,已經徹底顛覆了人工智能領域。這些模型在圖像識別、自然語言處理等各種任務取得了顯著的突破。然而,大模型存在參數量大、計算量大、功耗高等挑戰,這些問題限制了它們在資源受限的環境中的實際應用。因此,高效深度學習已經成為一個熱門的研究領域。
本次閉門會,莊博涵將介紹近兩年 ZIP Lab 在高效深度學習領域的部分研究成果,涵蓋了從訓練、部署到推理的整個流程,例如參數高效微調、可縫合神經網絡、高效注意力機制和大模型壓縮算法等。
莊博涵是 Monash University 長聘助理教授、博士生導師,ZIP Lab 獨立 PI。目前他專注于高效機器學習算法和理論研究,以及它們在視覺和語言領域的應用,近年來在計算機視覺和機器學習領域的頂級國際會議(如CVPR、NeurIPS)和期刊(如TPAMI)上發表了40多篇論文。他還承擔了多個業界項目,部分研究成果已經被業界廣泛引用,并轉化為工業界實際應用工具,還曾擔任多個知名學術會議的高級委員會成員,包括 ICML、NeurIPS、ICLR、CVPR 和 ICCV 等。
麻省理工學院在讀博士朱力耕:邊緣設備上的大模型微調訓練
設備上的學習和高效微調可實現持續且保護隱私的定制(例如,根據個性化數據在本地微調大型語言模型)。 然而,現有的訓練框架是為具有強大加速器(例如 GPU、TPU)的云服務器設計的,缺乏對邊緣學習的優化,面臨資源限制和邊緣硬件多樣性的挑戰。
本次閉門會,朱力耕將介紹一個可在各種邊緣設備上進行微調的、微型、稀疏且高效的引擎 PockEngine。 PockEngine 支持稀疏反向傳播。它會修剪反向圖并通過測量內存節省和延遲減少來稀疏更新模型,同時保持模型質量。
同時,PockEngine也支持多種應用程序、前端(PyTorch/TensorFlow/Jax)和硬件后端(CPU/GPU/DSP)。 與現成的 TensorFlow (Raspberry Pi) 相比,PockEngine 實現了高達 15 倍的加速,節省了 5.6 倍的內存反向傳播 (Jetson Orin)。 值得注意的是,PockEngine 能夠以 550 個令牌/秒的速度在 NVIDIA Jetson Orin 上微調 LLaMA2-7B,比 PyTorch 快 7.9 倍。
朱力耕師從韓松教授, 研究方向主要集中在高效深度學習系統和算法之間。他設計了第一個軟硬協同的 AutoML 算法并可以擴展到大規模的數據集的算法 ProxylessNAS,迄今已有 1400 引用和 1300 Github stars,并開發了高效推理系統和深度學習訓練系統,項目已經被整合到 PyTorch 和 AutoGluon 等框架中,曾被麻省理工學院新聞和 IEEE Spectrum 等媒體報道。
商湯科技研究副總監龔睿昊:大語言模型量化和 LightLLM 高性能推理部署系統設計
大語言模型動輒上千億的參數量對于各種平臺的高效、低成本部署帶來了更大挑戰。模型量化和高效的推理系統設計成為提高 LLM 推理效率的關鍵。
本次閉門會,龔睿昊將分享 Outlier Suppression 大語言模型量化系列方法和基于 LightLLM 的高性能推理部署系統 ,全面介紹實現極致性能和吞吐的算法與系統設計。
龔睿昊是商湯科技研究副總監、模型工具鏈團隊負責人,主要負責工業級模型工具鏈,包括大規模模型訓練、多平臺部署、模型壓縮和軟硬件協同技術體系。通過算法和工具實現規模化工業落地,支持智慧城市、智能駕駛、AIOT、手機場景等大量業務模型的模型生產,團隊支撐了商量等商湯大模型體系的底層技術搭建,致力于 ML+System 的綜合效率提升。他在 ICLR、NeuIPS、CVPR、ICCV、IJCV 等期刊會議發表二十余篇論文,多次獲得低功耗計算機視覺比賽 LPCV 冠軍、無人機追逐賽亞軍等獎項。
報名方式
線上閉門會將僅限通過報名審核的用戶參與。對本次線上閉門會感興趣的朋友,可以掃描海報上的二維碼,添加小助手小雙進行報名。已添加過小雙的老朋友,可以直接給小雙私信,發送“ 閉門會07 ”即可報名。
此次線上閉門會設有專屬交流群,將邀請出品人和三位主講人入群。通過報名的用戶將可以受邀入群,并可獲得直播地址進行觀看。