芯東西(公眾號:aichip001)
文 | 心緣

面對巨頭環伺的云端AI芯片戰場,一家中國AI芯片創企剛剛吹響沖鋒的號角。

就在昨日,燧原科技官宣了其首款云端訓練芯片邃思DTU、云端訓練加速卡云燧T10及計算及編程平臺馭算,云燧T10單卡單精度算力達到20TFLOPS,放在全球云端訓練芯片中比較也絲毫不落下風。

解密燧原云端訓練芯片背后的底牌

技術難、成本高、風險大、回報周期漫長等因素宛如一座座高山,將許多對造芯心向往之的創業者拒在云端訓練芯片的門外。燧原科技創始人卻毫不猶豫地選擇先攻克云端訓練方向,而且從啟動研發到開始量產首款云端訓練芯片只用了短短20個月。

這家不足兩歲的AI芯片創企,憑什么直攻這一AI芯片界難度最高的領域?它的創業團隊有怎么樣的技術基因,能否支撐起云端訓練產品的研發需求?面對強手如林的國際戰場,它有哪些差異化打法?

通過與燧原科技創始人兼CEO趙立東、燧原科技創始人兼COO張亞林深入溝通,芯東西一步步還原燧原科技首款云端芯片背后的技術底牌,兩位創始人也向我們系統展示了燧原的業務部署和落地策略。

一、AMD老兵創業,曾領導研發XBOX ONE和小霸王游戲機主芯片

燧原科技的兩位創始人趙立東和張亞林在AMD工作時,就曾是配合默契的老搭檔。

2008年1月,張亞林剛加入AMD,趙立東是他的直屬老板。兩個人合作了大約五年,趙立東負責整個團隊的構建、項目爭取,張亞林做執行和芯片的產出。

解密燧原云端訓練芯片背后的底牌

▲燧原科技COO張亞林

風靡全球的家用游戲機微軟XBOX ONE系列,采用的主芯片即是由張亞林在AMD上海研發中心領導研發。

據張亞林介紹,游戲機芯片設計與云端芯片設計有共通之初,都是大芯片,而大芯片設計有一套嚴格的方法學,芯片越大,整個設計難度也會呈指數級上升。

以微軟XBOX ONE主芯片為例,它既要跑操作系統,又要能跑游戲,是一塊由CPU+GPU結合的APU,設計難度非常高。

挑戰不止在設計本身,還有芯片工程化問題。

像XBOX ONE這樣一年需量產幾千萬臺的游戲主機,要求大芯片能盡快量產。這也是國產大芯片企業行路艱難的核心原因之一。

經過多個世界級芯片項目的磨礪,趙立東和張亞林都積累了深厚的芯片設計和工程化經驗。

解密燧原云端訓練芯片背后的底牌

▲燧原科技CEO趙立東

2014年末,兩人的同事關系暫時畫上句點。趙立東跳槽到紫光通信科技集團任副總裁,張亞林仍然留在AMD。

“我和立東在AMD有一個約定,”張亞林回憶道,“希望為中國做一些中國人的本土化項目。”

2016年,機會來了。老牌國產游戲機品牌小霸王在中山重新崛起,交給AMD大筆費用來做中國自主品牌的游戲機項目,這個項目幾經輾轉到了張亞林手中,目標是造出一顆超大型芯片,使小霸王游戲機的性能超過當時最先進的XBOX ONE的50%。

“我覺得,那是我留在AMD的最后一個夢想。”這一項目在2017年9月整體收尾,張亞林選擇離開,與時任紫光集團副總裁的趙立東再次會合,投身于另一個頗具挑戰性的領域——云端AI芯片。

二、政策支持,騰訊投資,人才技術均已就緒

當他們選擇創立燧原科技并定下云端AI芯片方向時,云端數據中心中的國產化AI芯片尚如一片荒原。

AI的發展是由模型算法研究推及云端終端的部署,如果上游的云端訓練模型受到國外的掣肘,那么整個AI發展都會被限制。

秉持著讓中國擁有更多自主前瞻性模型的初心,近20年的芯片研發經驗積淀,以及長期就職于外企而日漸濃厚的家國情懷,促使兩位燧原創始人決定在云端芯片高舉高打。

在張亞林看來,芯片工程化、市場應用與算法的整合、軟硬件加生態的全棧式設計能力,成為阻礙中國云端芯片快速成長的三座大山。

畢竟,單獨做出一顆能拿出來看的芯片,和整個市場都能用的軟硬件解決方案,中間還隔有相當的距離。

不過這一距離在兩位燧原創始人眼中,并非是難以跨越的鴻溝。憑借此前在業界積累的口碑,他們快速在新賽道上集結了各種對創業有利的因素。

人才和技術方面,中國集成電路產業經過近20年的發展,芯片設計人才和技術儲備均已成熟,足以研發大芯片。如今燧原207名成員中,研發團隊占90%,來自全球30多家公司,平均工作年限10年以上,有豐厚的技術沉淀。

政策和資金方面,燧原也獲得了上海市自由貿易試驗區臨港新片區及多家投資機構的大力支持。燧原分別在2018年7月和2019年5月完成超3億人民幣的融資,前者由騰訊戰略領投,后者由紅點領投。

解密燧原云端訓練芯片背后的底牌

有趣的是,作為國內AI界的投資大戶,騰訊向提供資金支持的AI企業多聚焦于算法、軟件與應用層面,鮮少關乎芯片研發。

市場機會、應用空間、人才紅利、數據資源、人才儲備、技術儲備、政策引領、資本支持等使能引擎均已就緒,共同驅動燧原云端芯片在AI和集成電路交叉賽道上駛向前方。

三、如何實現最強單精度算力?燧原的三大核心技術優勢

底層硬件的加速效率、性價比、能效比、可擴展性、易用性,以及是否可以有定制化、差異化,直接關乎整體業務的好壞。因此拿出有足夠硬核的芯片產品是任何一家AI芯片創企的首要任務。

昨天,燧原推出核心產品云燧T10,內嵌云端AI高性能通用訓練芯片邃思、搭載了計算及編程平臺“馭算”,覆蓋硬件與軟件。

解密燧原云端訓練芯片背后的底牌

▲燧原首款云端訓練芯片邃思

從公布的算力和測試指標來看,燧原已初步證明了自身的技術實力。

邃思芯片采用格羅方德12nm FinFET工藝和2.5D高級封裝技術,基于可重構芯片設計理念,具有高度并行化的特點,可實現通用可編程,并且能適配現有及未來可能的數學運算,適用于圖像、數據流、語音等各種訓練場景。

云燧T10單精度(FP32)算力達到20TFLOPS,半精度及混合精度(BF16/FP16)算力達80TFLOPS在ResNet-50模型上每秒處理幀數為518fps,單位能耗下性能比達2.3fps/W。

這些成績即便放到全球云端AI芯片領域來看也可圈可點。另外燧原還計劃在明年推進多卡互聯的Benchmark測試。

解密燧原云端訓練芯片背后的底牌

張亞林認為,燧原科技在技術方面有三大核心優勢。

其一,燧原推出的是覆蓋軟硬件和系統的全棧式解決方案。

其二,燧原在整個芯片研發過程中,融入大量專門針對AI加速的設計,并拋棄傳統設計與AI不相關的東西,致使整個AI軟硬件系統性價比得到極大提升。

盡管趙立東和張亞林都擁有豐富的CPU/GPU/APU相關研發背景,但他們打造的邃思芯片,在架構上沒有借鑒任何GPU設計經驗,而是從無到有的設計了一套單獨指令集和處理器,拋棄了以前所有的歷史包袱。

邃思芯片的計算核心包含32個通用可擴展神經元處理器(SIP),每8個SIP組合成1個可擴展智能計算群(SIC)。SIC間通過HBM實現高速互聯,通過片上調度算法,數據在搬遷中完成計算,從而最大化SIP利用率。

其三,燧原走的是全團隊開發模式,在后續與客戶的對接過程中,在本土化方面可提供最快速的響應和技術支持。

解密燧原云端訓練芯片背后的底牌

此外在互聯方面,燧原自研200GB雙向ESL(Enflame Smart Link,燧原片間互聯)技術,可實現芯片與芯片間、板卡與板卡間的高速互聯,在成本和算力拓展上均有較大優勢,在1024節點集群規模下,其訓練線性度加速比達86%。

軟件是提升芯片易用性的重要工具,燧原對軟件及工具鏈同樣做了充分布局,打造了計算及編程平臺馭算。

解密燧原云端訓練芯片背后的底牌

一方面,考慮到現有AI生態,馭算完全支持TensorFlow,下一階段將支持PyTorch、MXNet、ONNX等主流深度學習框架。上層客戶用這些框架做開發時,可以很快適配到燧原的軟硬件上。

另一方面,面向深度開發者,馭算也提供完整的開源工具鏈、SDK和軟件函數庫,使得對底層硬件資源有更多需求的開發者能與燧原合作定制甚至改動部分函數庫,從而實現硬件更為有效的加速。

四、聚焦三大業務方向,定制化合作滿足差異化需求

從2019年起,全球AI芯片的核心話題已經從“拼性能”轉移向“拼落地”,不僅要求有好的算力和效能,還要在落地具體業務場景時,能夠盡可能的挖掘這些性能。

當前燧原的業務主要聚焦在三大方向:一是包括公有云、私有云、混合云的云服務商,二是金融、保險、醫療、互聯網等領域有很強模型訓練需求的行業客戶;三是AI超算中心和智慧城市。

經由對規模、性能、成本的綜合考量,燧原為大中小型數據中心提供單節點模式(標準PCIe卡)、單機柜模式(整個機柜)、集群模式(ESL高速片間互連)3種互聯方案,以滿足不同客戶對深度學習的訓練需求。

解密燧原云端訓練芯片背后的底牌

▲包括8個云燧T11(OAM模組)的AI訓練Box,通過OCP標準專用接口與CPU服務器相連

在首批客戶的選擇上,燧原也非常審慎。

張亞林表示,燧原當前尋求的,是如何更有效地與有強相關性的合作伙伴產生互補效應。

燧原希望在中國找到志同道合的第一批客戶,來優先將更高性價比的AI訓練解決方案落地到這些客戶的業務場景,通過深入定制化合作,滿足客戶的差異化需求,從而產生更多前瞻性的AI算法,打破壟斷局面,加速AI算法的產生與落地。

在同客戶接觸時,燧原不急于立刻開展業務,而是先從客戶現有的業務模型當中進行泛化、抽取,以降低軟件遷移成本。

除了云端訓練產品外,燧原也有云端推理產品線。張亞林透露,打通從訓練模型產生到推理模型部署的整個環節,是燧原在未來三年要構建的全生態終極目標。

不過燧原暫時還沒有入局終端芯片的規劃。張亞林認為,云端的難度主要在技術和生態壁壘,而終端的難度則在于在細分市場找到定位,市場碎片化、算法碎片化問題導致一款終端芯片很難打通用市場,至少要幾十萬片的出貨量才能補足前期開發投入的成本。

趙立東也提到,作為一家初創公司,燧原首先將有限的資源聚焦在一個點上,把這個“冰”破開,再橫向鋪開,這個市場就變得更加水到渠成。

解密燧原云端訓練芯片背后的底牌

▲燧原科技首款云端AI訓練加速卡云燧T10

截至現在,燧原科技已建設頂級工程化團隊,完成產品研發和量產,實現產品熱啟動,開啟首個AI訓練平臺的商業化落地。

下一步,燧原將繼續打造擁有高能效比、高利用率、高性價比的芯片,吸收軟件遷移成本,并逐步完善市場銷售、服務支持體系建設,不斷豐富產品解決方案,打造對用戶更友好易用的軟件工具,并持續引進高端人才,尋求建立廣泛的開源軟件生態系統聯盟。

另外,張亞林也希望能從研發、產品定義、花銷、客戶支持,創造一個多維度穩定平衡的健康財務結構,將未來主動權掌握在自己的手中。

結語:明年AI芯片繼續拼落地

2019年被稱為AI芯片落地元年,張亞林相信,落地同樣也會是2020年的關鍵詞。

他表示,燧原希望能為做出達到世界水平的國產化芯片和軟硬件系統,并且有信心明年上半年打破AI商業落地的魔咒。

燧原在云端AI芯片領域的一些思考,對于其他芯片設計創企同樣有借鑒意義。正如魏少軍教授所言,芯片不是搭草臺班子就能做好的,不僅要有硬核技術實力、工程化能力和團隊完整性,還要思考怎樣才是對的方法、時機、方向、產品和客戶。

打破國外在云端芯片市場的壟斷絕非易事,但至少燧原已經邁出了充滿勇氣的第一步。我們也期待更多中國芯能夠邁過技術和落地的一道道難關,經受住時間和市場的考驗。