芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
從打造一顆芯片到推出系統級解決方案,似乎已經成為一家云端AI(人工智能)芯片公司的必然走向。
在9月1日-3日舉辦的2022世界人工智能大會上,云端AI算力企業燧原科技推出了針對大規模、集約化AI算力應用場景的高性能AI加速集群產品云燧智算機(CloudBlazer POD),以及全棧式AI開發服務平臺和通用大規模算力管理平臺燧池智算平臺(CloudBlazer Station)。
這是燧原科技在其面向訓練和推理的云端AI芯片相繼落地后,為提供AI場景計算能力建設而打造的最新力作。
此前,燧原科技的兩代“邃思”芯片已應用于大規模AI集群工程中,落地超千卡規模液冷AI集群。而兩個軟硬件新品的發布,有助于降低燧原AI算力產品在數據中心的部署和應用門檻,并進一步挖掘其芯片在實際業務場景中能發揮出的有效算力。
從迭代核心芯片到主打系統和軟件,這背后凝聚了燧原科技的哪些經驗與思考?近日,芯東西與燧原科技創始人兼COO張亞林進行深入交流,分享關于兩款新品的更多技術細節,以及對AI芯片產業未來走向的前瞻性見解。
▲燧原科技創始人、COO張亞林
一、降低AI算力中心部署成本,助建大規模、集約化、綠色低碳數據中心
張亞林告訴芯東西,目前燧原科技有4條主要客戶賽道,分別是泛互聯網、垂直或傳統行業、政府業務、產學研。燧原在這些業務線上均已落地樣板客戶,并泛化了所有這4條賽道的客戶需求,將它們集成在云燧智算機中,形成一套“軟件+硬件+系統化”的總體算力底座產業化方案。
云燧智算機采用一體化設計,是專為AI場景下計算、存儲、網絡、軟硬協同設計的標準化產品,通過一站式預集成AI加速硬件、一體化開發與管理平臺及配套AI應用軟件與服務,提供包括采購、安裝、運維一體的交鑰匙方案,來幫助用戶實現AI算力中心從交付部署到后期上線及運維管理全生命周期中的優異總擁有成本(TCO)。

▲云燧智算機整體設計
從外形來看,云燧智算機與美國AI計算企業英偉達打造的DGX POD看起來差不多。張亞林解釋說,兩者產品形態類似,但又有些不同,云燧智算機可以進行定制,散熱方式可以定制成是液冷或風冷,存儲、算力、CPU、網絡都可以定制,以組件化、菜單化形式提供給客戶。
據他透露,云燧智算機已開始落地,現有落地場景包括構成超千卡液冷AI液冷集群,已在國家級實驗室上線,在To G業務也實現了大規模應用。
從燧原此前積累的經驗來看,數據中心很關注能效比和性價比,這也是云燧智算機的優勢所在。
云燧智算機代表了燧原科技經過多個大規模工程實踐所形成的計算、網絡、存儲的整體設計:以全局優化為目標,基于計算、存儲、管理網絡分離,全互聯無阻塞的網絡架構,結合高效的多級存儲方式,在其自研AI芯片“邃思”與CPU的異構算力支撐下提供出色的AI性能。
據其披露的數據,在典型配置下,云燧智算機每單元可達到8PFLOPS的TF32浮點算力,并且支持按需橫向擴容,計算節點內基于GCU-LARE2.0多芯互聯技術可提供近1TB/s的互聯帶寬,跨節點互聯能力高達600Gb/s,可支持數千卡規模集群高速互聯,突破E級算力,并能支撐超千億參數巨量模型的高效、并行訓練。

通過采用一體化冷板式液冷技術、先進流量控制系統等,云燧智算機能夠將數據中心整體能效(PUE)降至1.1及以下。
張亞林說,燧原的產品均為自主開發,對芯片、板卡的成本有非常強的認知,其供應鏈優化也起到了關鍵作用,再加上對軟件的增值、跟OEM戰略合作中一體化設計在成本上的優化,能夠將能效、算效和性價比做到了極致。
如果將實現降低功耗的目標拆解來看,首先是做到整個芯片和板卡的能耗控制,在算力利用率高時,功耗能到峰值,并且不出現穩定性問題;在算力利用率低時,功耗要降下來,不能空耗電。
接著是控制整個系統的功耗。這取決于軟硬件聯合優化是不是足夠好,同時循環系統也很關鍵,相比傳統的風冷方式,液冷方式的散熱效能高,能將周邊溫度更好地控制在一個較穩定的狀態。
二、軟件,AI芯片公司未來的核心競爭力
“算力底座的概念,已經從芯片變成了系統,或者是「系統+軟件」。”張亞林談道。
單說板卡、芯片性價比多高沒有意義,最終客戶買的是系統,因此是從系統角度看性價比。無論是計算中心還是各類垂直場景,都越來越呈集約化趨勢,需要有能讓AI算力更加開箱即用的交鑰匙方案,這就要有將加速卡、CPU、存儲、網絡通通考慮在內的整個AI系統的整合,同時軟件平臺需將整個用戶界面全盤規劃。
“軟件的復雜度、系統互聯的存儲、算力匹配的復雜度,都會大力增加整個AI系統工程化落地的服務,必須有足夠強大的團隊和足夠多的know-how,才能夠把這些東西集成在一起。”
張亞林稱,這是一個很大的工程體系,要求整個團隊具備全棧能力,芯片團隊要掌握從芯片定義、架構、設計到流片、量產的全過程,軟件團隊要從全棧角度將底層驅動到上層框架全部拉通,系統團隊則需具備AI計算卡、CPU、網絡、存儲等系統集成的大規模部署。
有了這樣全鏈條的團隊,系統與軟件的配合才可能達到無縫地銜接與優化,才能真正從一體化、系統化的方式實現客戶的價值。
張亞林特別強調說,AI芯片公司未來的核心競爭力,除了芯片本身之外,軟件是一大關鍵。
軟件研發的難度甚至高于芯片本身,從無到有,要考慮對不同場景的適配、對未來算法模型的支持等等,而必須觸達足夠多的客戶,應用到足夠多的場景,吸收大量的客戶反饋再不斷打磨軟件,才有實現完備性的可能。
經過大量業務落地后,燧原團隊將其觸達的客戶軟件開發的模式、用戶的體驗和一些業務的痛點提煉整合到燧池智算平臺,使其兼具算法倉庫、訓推一體化、調度、運維等能力。
與云燧一體機搭配,燧池智算平臺能夠對上層用戶屏蔽底層算力異構性,實現云燧AI算力集群的大規模算力資源管理調度,為用戶提供AI模型生產及應用發布的全流程服務。
▲燧池智算平臺
其算法服務層包含智能算法管理平臺和訓推一體化平臺。燧池智算平臺的算法倉內置有幾百個算法,既有已被大規模使用的業內標準算法,也有很多經由燧原二次開發或修改、使其更好貼近實際業務應用的算法。在基礎設施層,異構算力調度平臺負責將所有任務切分調度,智能運維平臺讓用戶能夠隨時遠程監控數據、存儲、算力、網絡使用率及故障異常情況。
張亞林透露道,燧原的軟件會繼續向四個方面發力:易用性、完備性、遷移性、兼容性。
三、劇透云燧智算機迭代規劃,對AI芯片發展抱有長期信心
談及云燧智算機與燧池智算平臺的后續迭代規劃與期望,張亞林說,燧原一直秉持算力普惠的原則,希望通過系統產品、軟件產品、集約化的方式,能夠真正給用戶帶來性價比、能效比。
他相信短期內,這兩款軟硬件新品開箱即用、模塊化的設計方式,會進一步簡化數據中心的建設難度、縮短數據中心的建設周期;長期來看,隨著燧原芯片及軟件棧的迭代,其POD產品也會隨之更新,以系統方式提供更高價值。
據張亞林觀察,隨著中國數字經濟、算力經濟升級,現在到了科技興國的關鍵階段,即科技發展如何真正推動生產,要做到這一點,就要“用”起來,從客戶側感受到價值。燧原已經站到了“讓用戶用起來”的第一線。
“我覺得所有的AI芯片公司都必須征服從點亮到量產、量產到軟件規模化、軟件規模化到系統和生態。”張亞林說,“這個過程是沒有捷徑的,它是一個自然規律,就跟觸達客戶一樣,這就是看這些AI芯片公司能不能真正面向客戶,真正從系統和軟件的角度把落地和打磨的速度轉起來。”
目前國際AI計算巨頭在生態方面壁壘森嚴,國內AI芯片企業們尚難以與其“硬碰硬”。張亞林告訴芯東西,國產AI芯片如想提高市場競爭力,需在落地性價比上展現優勢,“通常我們在泛互聯網客戶落地的時候,要求的是兩倍凈值和性價比,在同樣的性能下,要達到它的兩倍性價比。”
當被問及對AI芯片賽道的長期信心,張亞林回答說:“做國家認為難但是對的事,我認為這條主向是不會變的。”在他看來,短期內遇到困難在所難免,大家對這個事業的信心也會上下起伏,過程需要長戰斗,但發展的終極目標、必要性都很清楚,假以時日,一定會有國內企業跑出來。
他認為,國產AI芯片在內容審核、安全檢查等特定場景中已能跟國外競品同場競技,在兩個方面還需補強:一是場景適配性與完備性,需要有更多用戶的使用和更多場景的接入,來加速產品的打磨;二是生態化,即實現整個AI系統與用戶需求更好地結合、與更多用戶的適配性越來越高。
對于支持日趨流行的Transformer類模型,燧原正在看下游市場的風向,觀察客戶現階段是否愿意承受稀疏化的改變,“但是它一定會在燧原未來的藍圖里面。”張亞林說。
結語:大算力AI芯片企業走向系統化布局
從芯片研發到走向規模化落地,以燧原科技為代表的多家國內大算力AI芯片公司,正朝著系統化方向展開全方位的布局,以應對愈發激烈的市場化競爭。
“我們第一代在講芯片、講板卡,第二代在大力優化我們的軟件、泛化應用、可遷移、兼容,再往下走,我們現在開始講系統+軟件+組件+模組這樣的整體賦能,這其實是客戶的趨勢。”張亞林說,燧原定位為AI算力基礎設施提供方,因客戶之需而變。
他相信,未來AI必然走向系統化、集約化、泛化,AI芯片也會有更好的通用性價位和彈性價位,既具備面向未來無數不確定算法的通用性,又能夠針對特定場景,在一定泛化的基礎上極致打磨其能效和性價比。