10月25日,上海交通大學(下稱上海交大)AI計算平臺完成技術驗收,正式上線服務。

上海交大AI計算平臺由8臺NVIDIA DGX-2組建,包含128張NVIDIA Tesla V100計算卡,深度學習張量計算能力可以達到16PFLOPS;通過搭載NVIDIA NVSwitch技術,GPU間帶寬高達 2.4 TB/s;AI計算平臺采用可擴展架構,使得模型的復雜性和規模不再受傳統架構的限制,可以應對眾多復雜的人工智能挑戰。

然而搭建AI計算平臺,除了需要考慮基礎硬件的算力能否滿足日益復雜的AI計算需求之外,還要考慮應用部署的便捷性、計算資源調度的靈活性等因素,因為AI計算平臺不僅僅是具有超強算力的簡單的硬件堆砌,而是一個復雜的軟硬件一體化系統。

在應用部署方面,由于現在的人工智能和高性能計算應用往往需要使用大量更新頻繁的框架、庫、驅動程序等復雜的組件,所以如果單純依靠人工來調試和維護運行環境,不僅需要耗費大量的人力,工作效率也會受到很大的影響。上海交大AI計算平臺采用NVIDIA NGC容器技術,將應用程序與其依賴的系統庫一起打包發布,簡化了軟件部署流程和軟硬件協同優化,大大降低了應用部署的復雜性和用戶使用平臺的成本;

在資源調度方面,如何避免不同負載在計算平臺內的相互干擾,提高不同應用在平臺上的運行效率也是搭建AI計算平臺不得不考慮的要素之一。上海交大AI計算平臺創新性的采用了“SLURM + Singularity”的管理模式,可以為用戶提供可伸縮、可擴展、高可靠的資源調度功能和最佳性能的應用支持。

上海交大AI計算平臺自部署以來,極大地加速了全校人工智能和高性能計算科研應用,使科研計算運行效率提升30-18000倍;在一些關鍵任務上,使原本需要數周甚至數月才能完成的計算任務,可以在幾小時內完成計算,大大提高了科研實驗的迭代速度和科研效率。可以說上海交大AI計算平臺已經成為了高校打造AI計算平臺的成功典范。

11月19日,智東西公開課聯合NVIDIA推出深度學習&GPU加速公開課NVIDIA專場,由上海交大網絡信息中心工程師韋建文主講,主題為《為深度學習和科學研究搭建AI計算平臺的關鍵與挑戰》。

韋建文老師將從上海交大AI計算平臺的搭建、遇到的挑戰、架構特性、不同容器技術的差異、如何利用Spack創建自己的容器鏡像到如何實現計算資源的靈活調度、實際應用優化案例等方面進行系統講解,為你解密上海交大AI計算平臺。

深度學習&GPU加速公開課下周開講!解密128張Tesla V100打造的超強AI計算平臺

課程時間

時間:11月19日
地點:智東西公開課小程序

課程詳情

主題:為深度學習和科學研究搭建AI計算平臺的關鍵與挑戰
講師;上海交大網絡中心工程師韋建文

提綱:
1、上海交通大學校級人工智能平臺建設的最新進展;
2、基于NVIDIA DGX-2的上海交通大學校級AI計算平臺的搭建與特性
3、如何利用容器技術在AI計算平臺實現高效的應用部署
4、上海交大用戶在DGX-2上應用優化的成功案例

講師介紹

韋建文,上海交通大學碩士,上海交大網絡信息中心工程師,負責校級“π”超算系統的運維和數據密集應用的優化。先后協助物理與天文學院、瑞金醫院等多個研究團隊完成應用優化,并積極參與HPC軟件包管理器Spack的開發工作,以及容器化HPC應用的研究。所開發的軟件部署方法和異常作業診斷方法已應用于生產平臺,極大提高了運維效率和用戶滿意度。

入群路徑

本次課程我們將設置主講群,講師將親自入群交流。希望進入主講群與老師認識和交流的朋友,掃描海報下方二維碼添加智東西公開課聯絡員“大越(xdxaxx)”為好友,添加時請備注“姓名-公司-職位或姓名-學校-專業”,申請進入課程群交流。

社群規則

1、智東西社群堅持實名學習、交流和合作,入群后需要修改群昵稱為:姓名-公司-所在領域,違者踢群;
2、禁止在群內廣告和發送二維碼等無關信息,違者踢群。