10月起,智猩猩芯片與算力教研組全新策劃推出「智猩猩智算集群公開課」,聚焦集群構建、互聯網絡、算力調度、存儲等關鍵技術。

目前,「智猩猩智算集群公開課」前四期已順利完結。騰訊專有云首席架構師方天戟、矩向科技CEO黃朝波、云脈芯聯產品總監孫偉、益思芯科技解決方案副總裁唐杰四位主講人,分別以《智算集群技術概述》、《智算中心融合算力調度》、《智算集群網絡互連技術創新應用與展望》、《智算中心 AI Scale-Up 網絡技術》為主題,進行了直播講解。

12月4日19:30,智猩猩智算集群公開課第5期將開講,由中國移動研究院網絡與IT技術研究所技術經理李鍇主講,主題為《OISA構建開放高性能GPU卡間互聯體系》。

大模型的爆發,對智能算力的需求指數級提升,集群規模邁入萬卡、十萬卡級別。大模型的訓練嚴重依賴集群內GPU之間頻繁的數據交互,帶來的龐大的通信開銷導致集群的有效算力無法隨GPU數量增加而線性增長,這也意味著互聯性能將是決定集群規模擴展和性能提升的關鍵所在。

智算集群互聯體系的構建需要GPU芯片、交換機、網卡、網絡協議等軟硬件的緊密結合,技術體系復雜,難度極高。

為了應對GPU卡間互聯的帶寬和時延要求,中國移動聯合產業合作伙伴共同發布OISA協議,旨在打造一個高效、智能、靈活開放的GPU卡間互聯體系。OISA采用全向連接設計,能夠確保大規模GPU之間的對等通信;同時,引入智能感知設計,通過定義流量感知標簽,并結合流控和重傳機制,優化數據傳輸效率。在協議層面,OISA采用統一報文格式、多語義融合、多層次流控和重傳以及集合通信加速等四大關鍵技術,能夠實現高速、低時延、無損和高可靠的GPU通信。

本次公開課,李鎧老師首先會介紹智算及GPU卡間互聯的發展背景,并進一步分析為什么要重塑GPU卡間互聯體系。之后,李鎧老師將著重講解如何利用OISA協議實現高效的GPU卡間互聯,并分享當前OISA的最新進展及下一步計劃。

公開課預告:OISA構建開放高性能GPU卡間互聯體系|中國移動研究院李鍇主講

公開課內容

主題:OISA構建開放高性能GPU卡間互聯體系
提綱:
1、智算及GPU卡間互聯背景
2、為什么要重塑GPU卡間互聯體系
3、如何通過OISA實現高效互聯能力
4、當前OISA進展及下一步計劃

主講人

李鍇,中國移動研究院網絡與IT技術研究所技術經理,主要職責集中在構建通用和智能算力技術體系、NFV網絡基礎設施以及先進計算等關鍵領域。致力于解決數據中心內部處理器、加速器、存儲器等核心組件之間的效率提升問題,特別強調通過采用開放的互聯技術來提高智算中心GPU卡間的數據傳輸效率和性能。以推動新型智算中心的創新,實現更高效、更靈活的數據處理。

直播時間

12月4日19:30-20:30