芯東西(ID:aichip001)
編輯 |? 信儀
GTIC 2020全球AI芯片創新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI芯片產業峰會上,19位產學界重磅嘉賓從不同維度分享了對中國AI芯片自主創新和應用落地的觀察與預判。
在峰會上午場,燧原科技創始人兼COO張亞林通過視頻的方式,發表了題為《軟硬系統協同——云端AI芯片產品化關鍵》的主題演講。
▲燧原科技創始人兼COO張亞林通過視頻的方式發表演講
目前,燧原科技的云端AI芯片生態已經覆蓋“邃思”通用人工智能訓練芯片、“云燧T10”人工智能加速卡、GCU-LARE智能互聯技術以及“馭算”計算及編程平臺。
在GTIC AI芯片創新峰會上,張亞林與我們分享了燧原科技對云端AI芯片產品化的看法,在他看來,AI系統要落地數據中心必須具備四個要素,分別為系統集群、板卡、高性能高算力的芯片,以及全棧的軟件。而衡量一個數據中心的AI系統需要從完備性、生產率、成本、功耗和性能五個維度來考量。
以下為張亞林演講實錄整理:
一、數據中心趨于整合,計算和圖形加速架構分離
首先,張亞林通過案例和數據向觀眾解讀了一個問題:2020年數據中心到底發生了什么?
在2019年,中國的數據中心行業規模已經占到全世界的30%,2019~2021年全球云計算市場規模一直在爬升,到2021年將達到2890億美金的市場規模。
NVIDIA在第二季度公布的財報表明,這是有史以來第一次NVIDIA的數據中心業務超過了顯卡業務,共達到17.5億美金的營收,與去年同期相比增長了167%。
張亞林說,數據中心正在朝著整合的方向走,世界上的三大巨頭:Intel、NVIDIA、AMD都在通過并購加強自身在數據中心的布局。
▲Intel、NVIDIA、AMD通過并購加強數據中心布局
Intel基于自己的CPU、數據和互聯的業務收購了Altera后,在去年又收購了Habana來做Intel自身的加速卡業務。
NVIDIA的加速卡計算業務很強,去年收購了Mellanox以豐富其數據卡和互聯的業務,目前NVIDIA還正在積極布局收購Arm以增強NVIDIA自身的CPU業務。
AMD本身具有CPU和加速卡業務,目前也開始收購賽靈思,以布局數據和互聯方面的業務。
張亞林講到,如果所有的收購完成,今年在數據中心方面就會出現Intel、NVIDIA、AMD三強爭霸的局面,由此看來,計算范式正在朝著數據中心系統化、整合化的方向進行變革。
張亞林接著分析了數據中心產品正在發生的變化:
先從NVIDIA講起,NVIDIA推出了整個系統化的集群——SuperPOD,SuperPOD的整個元素是由DGX系統構成的,而在DGX中裝入的是NVIDIA A100的板卡和芯片,完全遵循了自頂向下的設計原則,并以Turnkey(一站式方案)的方式進行SuperPod整個系統的推廣。
再來看AMD,AMD正在加速計算和圖形結構的分離。從AMD發布MI100時的一張示意圖來看,下圖中灰色的部分表示其傳統的GPU結構正在被拋棄,取而代之的是基于計算加速和優化的產品線和基于游戲加速和優化的產品線,在AMD的產品線中,它們分別被命名為RDNA GAMING-OPTIMIZED和CDNA COMPUTE-OPTIMIZED。
▲AMD發布MI100時的示意圖
同時,計算和圖形的加速分離也導致了NVIDIA和AMD在兩條線上進行布局。
在計算卡部分,NVIDIA Tesla系列一直是NVIDIA計算卡的主打,其中包括了有名的Tesla V100、A100和Tesla T4。同時AMD積極布局其Instinct MI系列,并在不久前推出了MI100。計算卡的部分衍生出來就是數據中心的業務。
在圖形卡部分,NVIDIA有其NVIDIA RTX系列,AMD擁有其AMD RX系列,這些部分衍生出來就是游戲業務。
因此NVIDIA和AMD兩大巨頭通過對計算卡和圖形卡的分離,已經形成了完全不同的產品線和架構。
二、數據中心AI系統“全壘打”和“全維度”
數據中心AI系統“全壘打”是什么樣的?
張亞林說,AI大系統要落地數據中心,必須具備四個要素,分別為系統、板卡、高性能高算力的芯片,以及全棧的軟件系統。這四大要素構成了整個AI系統的“全壘打”。
而對于衡量一個數據中心AI系統真正能被市場化、產業化、規模化的標準,張亞林分了五個維度來解讀,這五個維度分別為AI系統的完備性、生產率、成本、功耗和性能。
▲數據中心AI系統的“全維度”
從完備性角度來講,廠商必須具備很好的軟件框架覆蓋率、模型的覆蓋率,還能滿足用戶的可定制化要求。
在生產率角度,廠商必須能從用戶的角度出發,適應用戶的開發效率、易用性、靈活性、可編程性和可遷移性。
在成本方面,有整個芯片的成本、板卡的成本、服務器的成本,還有遷移成本。
在功耗方面,整個芯片架構、存儲類型、通信方式、軟件實現以及利用率還有工藝都左右了功耗大小,也直接影響了后續的運維成本。
在性能方面,算力、延遲、精度、訓練時間、推理時間、線性度(多卡)都對性能維度有影響。
因此,通常一個AI系統的“全維度”設計必須在五個維度之間平衡,再去迭代,保證能夠找到這五個緯度在用戶側最好的差異化以及最優解,才能讓整個產品更有亮點。
接著,張亞林特別就數據中心AI軟件棧的“全維度”做了解構,他說,一個合格的、能商業化的、能讓用戶開發,且具有很強遷移度的軟件棧,應該在應用層、框架層、SDK層和驅動層這四個層面進行布局。
▲數據中心AI軟件棧的“全維度”
自頂向下來看,從應用層的角度來講,它必須具備很強的模型庫,在模型庫的豐富程度方面,燧原科技已經擁有了100多個模型。此外,在Benchmark方面必須有很強的基準測試能力,提供很強的基準測試標準,才能讓用戶在基準模式上的適用度更強。
接下來是框架層,目前業內通用的是TensorFlow、PyTorch兩個主流框架,以及通過ONNX往下接入的部分,還有在非框架部分的推斷引擎、推理引擎都是非常重要的框架性元素。
在框架層之下是整個全棧的SDK,也就是用戶開發包,包括整個圖形分解的引擎、圖優化的引擎以及整個算子庫,還有能使整個算子開發的編程模型和工具鏈。
在SDK下面是驅動層,驅動層和整個硬件下的AI芯片進行銜接。
而要想合理設計一個數據中心的AI芯片,必須從計算、數據、存儲、互聯四個角度看問題。
從芯片計算的本身出發,算力大小及有效算力是燧原科技一直在追尋的終極目標。如何通過數據的傳輸、存儲和吞吐量,為計算引擎合理地輸入和輸出,保證它的有效算力,也是燧原科技考慮的因素。
在存儲方面,分布式的存儲大小在平衡片內存儲、片外存儲,以及實現存儲的高效移動都是非常重要的命題。
在互聯方面,整個數據中心朝著集群化、系統化的方向發展,整個軟件棧也在朝著分布式的方向發展,如何提升互聯的效率、線性度和速度,以使整個大系統、大集群像一個虛擬化的計算池一樣執行,也是一個很重要的命題。
除此之外,要達到芯片性價比和能效比的“最優點”,還需要具備四個“P”,分別為:完全可編程(Full Programmability)、全模式計算(All Pattern)、全精度計算(Entire Precision)、高并行度(High Parallelism)。
張亞林說,在計算、數據、存儲、互聯四個維度以及四個“P”兩方面都做好平衡,才能滿足芯片的高性價比和能效比。
▲數據中心AI芯片的“全維度”
三、云端AI芯片的產品化挑戰
張亞林說,整個AI大芯片大系統的產品化涉及到系統化、工程化、產品化、生態化四個方面。
首先,在系統化上,如何合理設計系統架構,能讓AI大系統具備用戶的普適度、具備各種模型和應用模式,能給用戶帶來更好的性價比、能效比效果,這是一個非常重要的課題。
同時,軟硬件的聯合設計使整個有效算力能被完全發揮出來,使底層的硬件能力能被充分釋放,這是系統化另外的一個關鍵部分。
工程化往往是被忽略的,張亞林介紹說,AI芯片在流片回來后走完了芯片工程化的30%,另外70%的路要靠AI芯片的工程化、量產化,推動其朝著創新落地和定義交付兩個方向走。
很多AI芯片用了很多的創新架構,而這些架構能不能真正實現客戶價值,能不能進行商業化的落地,能不能減低客戶的遷移成本,以及交付過程中對于客戶的承諾、交互日期,自身的執行力,自身定義能夠交付的標準和時間節點目標等,都是廠商需要去思考的問題。
在產品化方面,用戶真正期待的是真正普惠易用的方式。所謂“普惠”就是整個AI算力的泛化,會帶來AI算力的性價比。“易用”針對的就是客戶的遷移成本以及使用的生產效率。
同時,AI系統必須為后期的運維做考慮,也就是說必須是穩定可靠的,這種穩定可靠在數據中心里要保持五年甚至更長時間,使得數據中心能夠一直在穩定可靠的方式下進行運營。
最后,在生態化方面,好的生態必須要具備能讓用戶輕松開發的能力,需要把AI系統變成開發的利器。同時,它又能使用戶真正預言未來的AI算法,能夠不斷精進和提高AI算法的性能和適用度,為世界帶來更好的AI創新點。
因此,基于AI芯片產品化挑戰,系統化、工程化、產品化、生態化四個方面構成了整個云端AI芯片產品化的難點和亮點。
張亞林說,一個公司要能夠實現這樣的系統化、工程化、產品化、生態化的能力,它就必須具備這四個方面設計的意識和團隊,燧原科技通常把這四個方面稱為云端AI軟硬件系統協同最大的挑戰和亮點,也是未來人工智能在云端芯片和系統發展中的必經之路。
張亞林在最后總結時表示,燧原科技一直秉承著“做大芯片,拼硬科技”的宗旨。燧原科技做云端的AI大芯片和復雜系統,是因為它難而不是因為它簡單。只有難,才能為國家創造更好的價值,為AI帶來更好的明天。
以上是張亞林演講內容的完整整理。除張亞林外,在本屆GTIC 2020 AI芯片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、黑芝麻智能、壁仞科技、光子算數、知存科技、億智電子、豪微科技等芯片企業,全球FPGA領先玩家賽靈思,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI芯片產業的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關注芯東西后續推送內容。