智東西(公眾號:zhidxcom)
作者 |? 國仁?心緣
編輯 |? 漠影

智東西12月21日報道,剛剛,燧原科技推出首款云端推理計算卡“云燧i10”及推理引擎“鑒算TopsInference”。

云燧i10是單槽位標準卡,支持PCIe 4.0,FP32算力可達17.6TFLOPS,BF16/FP16算力可達70.4TFLOPS,最大功耗僅為150W,在主流AI模型中的性能表現均超過GPU競品。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

落地鋪陳也基本就緒,云燧i10目前已經獨立適配8款AI服務器,將于明年第一季度上市。

這著實令人感到驚異,作為一家成立于2018年3月的AI芯片初創公司,燧原科技研發和落地的速度,實在是太快了。

成立18個月推出其首款云端訓練產品 “云燧T10”及軟件全棧“馭算”,今年9月宣布“云燧T10”落地商用,如今首款云端推理產品正式量產發布。

任何一個環節出問題,都不可能做到如此迅速,況且燧原科技最先選擇的云端AI訓練芯片,還是AI芯片領域公認的最難的“山頭”。

截至當前,燧原科技成為國內唯一一家同時擁有云端訓練+云端推理完整解決方案的初創公司,也是騰訊連續三年投資的唯一一家AI芯片公司。

燧原究竟是如何做到的?通過與燧原科技創始人兼COO張亞林深入交流,我們試圖還原這家AI芯片創企超高效率背后的“內功”。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”▲智東西總編張國仁(左)與燧原科技COO張亞林(右)

一、對標巨頭,速度制勝

燧原選擇了一條充滿未來,但也荊棘密布的路。

云端訓練及推理芯片的道路前方,始終屹立著英偉達,這樣一座巍峨而難以逾越的高山。

“國外友商樹立了珠穆朗瑪峰,我們必須跑得比它更快,我們必須以更快的迭代速度、更快的客戶反饋來加速產品迭代,才能在市場中建立自己的競爭優勢。”張亞林說。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

燧原團隊選擇切入的云端AI芯片市場很廣闊,但如果不能快速抓住機會占穩腳跟,未來市場再大,也只會是別人的囊中之物。因此研發和落地周期,都必須盡力縮短。

“在大公司有個「1+1」模型,芯片項目從立項到流片是一年,從流片到量產是一年。我們云燧T10在2019年5月底流片,2020年6月量產,精確地執行了這一模式。”

在張亞林眼中保證超高執行力,是趨向于成熟公司的必經之路。奔著“基業常青”的目標,燧原從創業之初,就在規劃落實三個關鍵點。

首先是文化統一。文化是一個公司的根基所在,能從思想層面實現團隊的高度協同。燧原在1.0階段就開始打造燧原文化,如今已升級至2.0階段。

燧原的文化核心是胸懷正道、開拓執行。其中胸懷是指要客戶為先,共贏為本;正道是指忠于職責,勇于擔當;開拓是指始于創造,歸于價值;執行是指以終為始,以質為髓。

其次是行為模式統一。一個公司要做到規模化,必須有規范的制度流程。從成立之初,燧原就打造了環環相扣的管理機制,比如建立專門對項目進行監管的項目管理團隊(PMO)、使用統一的項目管理原則和管理語言,再比如對執行過程中如何做關鍵決策、追蹤熱點等制度進行規范化管理。張亞林認為,這是大公司能行之有效持續推動產品研發落地的根本。

第三是形成正循環。當企業推出產品,開始落地并逐漸規模化,就會得到更多資本青睞和業內認可,從而形成反哺企業的動力,這樣就形成正循環。而如果企業不是正循環,它的效率必然會受阻,出現走彎路的情況。“我們在整個過程中精準把握了正循環和產品迭代,所以才能做到這么快。”

于是,在燧原1.0階段,剛成立18個月的燧原就推出了高性能云端訓練產品,實現從0到1的破冰。

進入2020年,燧原非但沒有被疫情“黑天鵝”打亂陣腳,反而按計劃順利進入“從1到N”的燧原2.0階段,循序漸進地完成新融資、云端訓練集群方案商用落地、云端推理加速卡量產發布等重要節點。截至今日,燧原已累計融資13.4億元。

除了階段進化、團隊規模增長外,燧原的落地也更為多元。張亞林透露道,燧原目前針對互聯網、垂直行業譬如教育、金融等方向正在進行頭部客戶的規模化落地,“新基建”也正在快速鋪陳。

二、主流模型基準測試,表現超過GPU旗艦競品

技術理工出身,也可以充滿文藝情懷。

每個年末“壓軸”出場的燧原旗艦產品發布會,其主題意義都很有文藝范兒。

去年燧原云端訓練計算卡云燧T10發布時,張亞林將主題定為“芯火燎原”,希望云燧T10能一直開拓廣袤的土地。

如今云端推理計算卡云燧i10發布,主題變成了“芯漢燦爛”,出自曹操《觀滄海》中的名句“星漢燦爛,若出其里”。其中,“燦爛”寓意更多后續產品,以此寄予對云燧i10在星空上持續閃耀的期待。

通過對云端推理市場進行廣泛調研和用戶畫像,燧原針對性地進行了極致能效提升、多用戶虛擬化、工藝良率優化、散熱方案增強等全方位產品打造,并完全獨立重新設計了推理軟件全棧和板卡系統,使云燧i10擁有出色的用戶價值特性。

從燧原公布的基準測試表現來看,云燧i10可以說是不負所托。在主流的圖像識別、視頻增強、視頻處理、內容審核、推薦等主流模型中,實測性能表現均超過GPU旗艦競品。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

這得益于云燧i10的四個主要特征:

1、高算力、高精度:150W單槽算力密度下,FP32算力可達17.6TFLOPS,BF16/FP16算力可達70.4TFLOPS,單精度算力可達GPU競品的兩倍以上;采用自主指令集,支持從FP32到INT8等多種精度;采用512GB/s高存儲帶寬和16GB本地存儲。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

2、高能效、高可靠性:智能功耗管理(APC采用動態調頻調壓(DVFS)技術將功耗控制到接近但不超過最大值150W,從而最大限度發揮算力;根據負載加速應用性能,支持RAS、ECC;通過硬件架構設計、硬件模塊及軟件全棧的配合,實現溫度、電流、功耗等監測保護,可提供高能效比FP32算力和省電模式。

3、設備虛擬化(MID):最大可支持4個設備實例,具備計算與存儲資源的獨享性,多用戶間安全隔離;單顆芯片上可同時部署不同的業務與負載,實現多任務并行,有效提高利用率;支持KVM、Xen等系統虛擬化平臺;性能開銷不到物理機的3%。

4、易編程、生態開放:開放C++和Python編程接口,支持CNN及NLP典型模型,支持TensorFlow、PyTorch、ONNX等主流機器學習框架,并通過SDK提供深度定制。

目前云燧i10已支持來自浪潮、Supermicro、新華三的8AI服務器。云端高算力密度推理服務器半精度算力可達1.1PFLOPS,邊緣云推理服務器半精度算力可達280TFLOPS

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

當然,僅僅有高性能的硬件產品還不夠,要充分挖掘硬件算力,必然離不開完善的軟件工具。

三、從無到有,打造推理軟件全棧

在研發云燧i10的同時,燧原從無到有地建立了一套對開發者友好的推理軟件全棧,提供不同層次的開發模式,以及針對客戶定制化算法模型的聯合開發與優化。

這一軟件全棧在應用層、框架層、SDK層和驅動層這四個層面進行布局。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

自頂向下來看,應用層的Model Zoo中內置70多種主流模型,覆蓋計算機視覺、自然語言處理和語音識別以及其他主流AI算法。

在AI框架層,針對推理領域有很多自定義框架的特點,燧原打造了高性能神經網絡模型推理引擎“鑒算TopsInference”,能將標準化框架及客戶自定義框架中的模型轉化成馭算統一執行模型。

下一層是SDK層,當所有模型被標準化后,燧原提供的圖優化引擎“絡算TopsNeuro”將模型解析成各種圖結構。同時燧原還提供了包含各種分析調試及可視化工具的全套工具鏈“探算TopsKit”。

再往下是算子庫,“擎算TopsOperator”支持500多個算子和80多個原子,能通過提供原生匯編實現與優化,挖掘更高的算力利用率。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

而用戶能不能自己定制算子、操作內部的推理棧,則需依靠TopsPrimo,它給用戶提供了標準化模型、框架之外的另一種選擇,即自行通過編程來優化操作。

最后在SDK層之下,是與硬件銜接的驅動層。

由此,燧原打造出訓練推理的整體解決方案。云燧i10與云燧T10以及“馭算TopsRider”軟件平臺搭配,可實現算法模型在數據中心訓推一體化的快速生產部署。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

四、火力配置均勻,向著目標進發

張亞林告訴智東西,燧原的云端訓練和推理產品路線圖已經規劃到三年以后,其團隊正精準地按照這一路線圖執行。

這種“精準”的執行力,源自燧原“使命必達”的精神底蘊。

以研發云燧i10為例,朝向在2020年12月31日完成量產的目標,燧原從今年3月啟動在方案、架構和軟件開發上的技術優化,早期受疫情限制主要集中于內部的遠程開發,從5月起全面轉向系統集成開發和和測試。

得益于燧原從一開始就建立了遠程工作機制,早早搭建完善的內部集群環境,能支撐數百人的多團隊從多個地域并行開發。即便遭逢疫情,燧原的云端訓練產品落地和云端推理產品研發進度均未受到影響。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”▲燧原云端推理計算卡“云燧i10”

為了提升能效比,燧原團隊決定在云端推理計算卡上采用動態調頻調壓(DVFS)技術,始終在設定的條件內跑最高的電壓和頻率,這一技術對精確度的要求非常高。

頂著讓板卡實現30天全負荷工作不死機、不過熱的巨大壓力,從10月開始,量產團隊在燧原實驗室中連續一個月全負荷緊急攻關調試,每個人都背負著巨大的責任感,將工作任務嚴格控制到每一天,1個月后板卡順利通過抗壓測試。

除了系統量產團隊外,在產品研發方面,燧原還有其他三個主要團隊,分別是芯片團隊、軟件團隊以及客戶解決方案團隊。在燧原文化的驅動下,這四個團隊緊密協同,實現了燧原從項目伊始到整個大系統量產的高效執行力。

其中,研發人員是燧原團隊的主力軍,占總員工人數的近90%。除了重視研發外,面向客戶服務的員工數量也在持續增長。

如今,燧原已建立了全建制的商務和研發部門,包括產品市場、商務銷售、客戶方案及供應鏈等部門,更好地為客戶提供服務。

張亞林認為,在企業初創階段,需要一些非常資深的人來把控產品和落地等方向,但隨著團隊逐步擴張,芯片公司就像一個火力配置均勻的集團軍,有各種兵種,包括做驗證的、做設計的、做架構設計的等等。

“我不認為一個公司全是「特種兵」”,張亞林特別提到,這不是有效的組織結構,當一個公司達到某一階段,就需要實現“火力均衡配置、各種兵種互相協同高效運作的組織”。

五、云端AI推理芯片將呈現爆炸式增長

盡量CPU仍占據最多的云端推理市場,但張亞林認為,這是因為推理市場還未完全蓬勃發展起來,并不妨礙未來云端AI推理芯片的成長。

此前因模型基礎量不夠大,很多推理還在做輕量化,加上端云之間的延遲很大,導致網絡傳輸速度嚴重掣肘了云端推理的應用。

而從近年數據來看,在中國云端推理市場,AI處理器所占份額從2017年的0%逐步攀升至2019年的1.5%。

挺進云端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高效率背后的“內功”

尤其在今年,推理市場增速明顯。

首先是場景的發展,中國互聯網場景非常多樣化,在信息安全、語音、NLP、短視頻等方面有越來越多的推理需求,應用場景日趨豐富。

其次是網絡的發展,5G的興起打破了端云之間的延遲限制,讓云端多用戶并發性變得非常廣泛,將網絡延遲降到最低,這樣一來,云端算力就變成了關鍵瓶頸。

因此,張亞林預計,隨著應用場景泛化以及5G的普及,AI處理器一定會在云端推理市場呈現爆炸式增長。

六、商業成功是檢驗技術創新的唯一標準

什么才算真正的技術創新?

前段時間,中國工程院院士吳漢明在題為《“中國芯”呼喚產業導向的技術支持》的演講中指出,商業成功是檢驗技術創新的唯一標準。

張亞林對此非常認同,當我們還在談論芯片架構創新,英偉達及其他云端頭部公司已將著眼點放置于全系統的創新,而芯片只是其中很小的一部分。

“燧原的目的一直是算力普惠,這句話并不是空談。”張亞林說,燧原在軟件、硬件、系統、客戶定制化方案全面鋪開,通過打造高性價比的算力,真正為客戶創造價值。

在他看來,開拓型創新是有前提條件的,只有通過逐步了解市場,提高客戶黏性、構建生態到一定程度時,創新才是有說服力的。

要達到這個前提的根本,是通過不斷產品迭代,在算力性價比、客戶支持極致性上做文章,這樣才能積累起一定的客戶黏性。

“所以拋開市場價值、客戶黏性、生態壁壘去談創新,就是無本之木、無源之水。”張亞林說。

結語:不講故事,只講客戶價值

截至現在,燧原科技的云端AI芯片生態已經覆蓋“邃思”通用人工智能芯片、云端訓練加速卡“云燧T10”、云端推理加速卡“云燧i10”以及“馭算”軟件全棧平臺。

在張亞林看來,中國公司做數據中心是大趨勢,而中國數據中心的體量完全能容納更多的頭部玩家,市場也需要“百花齊放”,同時燧原將堅持通過高執行力和工程化為客戶提供價值。

“我們是一家以技術驅動,為客戶創造價值的公司。”他提到燧原已經走在商業化落地的路上,“明年公司愿景是實現更大規模的商業落地,建立我們的產品生態和護城河,為客戶提供更多更完整的產品解決方案。”

在后續的產品迭代中,燧原計劃持續滿足客戶更多的需求。隨著生態打磨和業務泛化,燧原給自己定的目標是將客戶從其他產品遷移到燧原產品的時間壓縮在一周之內。

除了總部位于上海外,燧原科技已在北京和深圳設有研發中心。張亞林說,未來他們還希望能夠布局一些內地和沿海省市。

“人才在哪兒,研發中心就放在哪兒。”張亞林希望通過遠程管理和高效組織,未來燧原能夠吸納更多的人才。