「AI新青年講座」將邀請世界頂尖AI研究機構和大學的科研新青年,主講他們在計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。
有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。
擴展深度神經網絡已被證明在提高模型質量方面是有效的,同時它也帶來了不斷增長的訓練挑戰,包括訓練效率、可編程性和資源適應性。新加坡國立大學System Lab在讀博士史子驥在阿里云計算平臺事業部實習期間,提出了一個針對巨型模型的通用且高效的分布式訓練框架Whale。
Whale通過對不同并行化策略進行統一抽象、封裝,在一套分布式訓練框架中支持多種并行策略,并進行顯存、計算、通信等全方位的優化,來提供易用、高效的分布式訓練框架。Whale也提供了簡潔易用的接口,用戶只需添加幾行代碼即可組合各種混合并行策略。
同時Whale還提供了一種新穎的基于硬件感知的自動化分布式并行策略,可以感知不同硬件的算力、顯存等資源,均衡不同硬件上的計算量,最大化計算效率。在具有 512 個 GPU 的生產集群中,Whale成功訓練了一個行業規模的多模態模型M6,模型參數超過 10 萬億個 ,展示了出色的可擴展性和效率。
8月3日晚7點,「AI新青年講座」第142講,邀請到新加坡國立大學System Lab在讀博士史子驥參與,主講《利用自動化的分布式混合并行策略高效訓練大模型》。
講者
史子驥,新加坡國立大學System Lab在讀博士;師從李佳臨教授;研究方向為高性能計算和分布式機器學習,曾在AAAI/USENIX ATC發表論文,本科期間曾獲SC17超算競賽冠軍,目前在阿里云計算平臺事業部實習。
第142講
主 題
《利用自動化的分布式混合并行策略高效訓練大模型》
提 綱
1、大模型訓練的難點
2、易用且支持多種并行策略的分布式訓練框架Whale
3、基于硬件感知的自動化并行策略及顯存、通訊優化
4、實操演示:通過幾行代碼實現分布式并行策略
直 播 信 息
直播時間:8月3日19:00
直播地點:智東西公開課知識店鋪
成果
Whale
《Whale: Efficient Giant Model Training over Heterogeneous GPUs》
項目主頁
//zijishi.xyz/publication/whale/
開源地址
//github.com/alibaba/EasyParallelLibrary