芯東西(公眾號:aichip001)
作者 | 李水青
編輯 | 心緣

當下,人工智能產業發展正在進入“大模型”階段,1700億參數的超大規模深度學習模型GPT-3,指引整個人工智能產業尋找一條新的可行之路,縮短我們與通用智能的距離。但與此同時,海量的數據和超大算力需求,讓大模型的產業化落地面臨巨大的算力挑戰。

在摩爾定律逼近物理極限的情況下,中國AI芯片創業大軍并非無計可施,而是涌現出一大批革新者,用底層技術創新挑戰既有的行業壟斷龍頭。

創立于2018年的云端AI芯片公司墨芯人工智能就是其中一個代表。

誕生于硅谷,總部位于深圳,這家公司推出多款基于自研稀疏計算芯片的AI計算卡,運行ResNet-50算力超90000fps。相較于當前國際大廠主流推理卡單卡只能支持百億參數級別的模型,據稱,其可以支持千億參數級別的模型,這意味著讓擁有1700億參數的GPT-3大模型跑在單張計算卡上。

深扒團隊背景,創始人兼CEO王維曾在美國高通和英特爾擔任架構師,是英特爾5-10代CPU處理器的核心成員,參與開發量產超50億片芯片,同時他也有過硅谷芯片公司創業經歷;首席科學家嚴恩勖是卡內基梅隆大學擁有40多篇AI頂會成果的機器學習博士。

起點高,沖得快,是很多業內人對墨芯人工智能的印象。

那么這家公司到底有什么核心競爭力?背后又有什么樣的創業故事?縱觀當下的AI芯片產業化落地潮和價值檢驗窗口,墨芯能否持續將技術成果轉化為產業價值?

近日,墨芯創始人兼CEO王維與智東西進行了線上對話,回顧了四年創業關鍵節點,并對這些問題進行深入探討。

今年8月26日下午,王維將出席在深圳舉辦的GTIC 2022全球AI芯片峰會·云端AI芯片專題論壇,并發表主題為《面向AI未來的稀疏化計算》的演講。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

一、單卡支持大模型,運行ResNet-50算力超90000fps

2022年的元旦夜,王維和幾個核心測試人員在實驗室,剛剛拿到首顆芯片Antoum的回片。4年努力和艱辛到了驗證時刻,王維和同事們立刻將所有軟件跑上去,上電的那一剎那,整個芯片驅動程序就剎那間跑通了。

他們當晚連夜把ResNet-50跑通,發現性能都順利達到了當初設計的目標。“這款全球首款高達32倍稀疏率的AI計算芯片,在算力、功耗、能效比——云端芯片的三大核心技術點上,Antoum都做到了突破性創新。”王維對智東西說。

這是王維創業四年里最興奮和有成就感的時刻。

所謂稀疏化計算,是一種以人腦得到靈感的模型壓縮方法。簡單來說,就是通過底層創新、軟硬協同設計,讓神經網絡模型消減冗余,以提高計算效率。

僅僅在流片成功4個月后,今年4月,墨芯就推出首款基于Antoum芯片的S4計算卡。在第三方浪潮服務器上,S4運行多個主流AI模型,實測性能是國際大廠主流AI推理卡T4的6倍。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

▲基于Antoum芯片的S4計算卡

近年來新興的NLP模型——T5,曾被稱為“全新NLP SOTA預訓練模型”,以其高參數量,讓許多計算卡“望而卻步”。S4在單機單卡環境下就能運行T5-8B模型,算力穩定在190sps左右。S4運行T5時內存占比只有約7.8%,讓人對它能夠支持的模型參數具有很大想象空間。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

相較于當前國際大廠主流推理卡單卡只能支持百億參數級別的模型,S4計算卡可以支持千億參數級別的模型。而隨著S4性能得到驗證,更大尺寸的S30也迅速推出,適用于能效比、功耗更高的場景。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

▲基于Antoum芯片的S30計算卡

王維向我們舉了一個例子,GPT-3模型是擁有1700多億參數的大模型代表,如果放在GPU上去做推理的話,需要內存量是要幾百G,也就是需要很多張80G的GPU,且會有明顯時延;但通過稀疏化路徑,用一張墨芯S30計算卡,就可以跑通GPT-3,并且計算速度還變快了很多。

墨芯正通過打造這一套芯片和軟硬件產品,去推動深度學習更高算力、更大規模、更低計算成本的方向去發展。

就在近日,第三方實測數據顯示,墨芯S4計算卡運行ResNet-50,算力達33197fps,S30計算卡運行ResNet-50算力超90000fps。

墨芯已成為非盈利性機器學習開放組織MLCommons會員,后者由谷歌、英偉達、英特爾、Facebook、浪潮等全球AI領軍企業創建,是業內權威基準測試MLPerf的監管者,9月將公布其首批稀疏化計算卡S4和S30的性能測試結果,有望代表國產AI芯片達成一個新里程碑。

二、主攻稀疏化計算,在云端AI芯片賽道獨辟蹊徑

縱觀全球云端AI芯片創業大軍,如同過獨木橋般競爭激烈。

一個創業公司想要從行業壟斷龍頭口中搶占市場蛋糕,想在各顯神通的AI芯片創企中殺出一條血路,就一定要有來自底層技術的顛覆性創新,而不能是微量的差異化和創新點。王維認為,這個技術差異化或者性能提升至少需要10倍。

稀疏化計算技術在王維看來是一條能實現10倍顛覆性創新的路徑。

“(稀疏化計算)技術差異化達到了一個數量級,當時我們就可以在算法層面上做到接近20倍的稀疏率,模型精度不改變,這是一個足夠顛覆性的技術特點。”王維說,“同時,稀疏計算無需再造一個生態,它和現在所有的AI訓練、推理生態兼容,因此市場化落地可以確定。”

事實也正如王維所料,市場幾乎不需要他去重新教育。其接觸了很多行業的頭部客戶,本身有較強的AI算法和人才,所以都十分認可稀疏化計算在深度學習推理、訓練的潛力和發展空間。

令客戶好奇的是,墨芯把稀疏化做到什么程度了?產品的完整性如何?是不是到可用甚至易用、通用的程度了啊?這個里面的技術差異性有沒有足夠大,讓我足夠有興趣,去選擇國際大廠之外的第二供應商?這些是更加重要的問題。

而這,實際上也是當下云端AI芯片產業發展至今,走向規模化落地的最大挑戰之一。

在墨芯創業之時,各路玩家都在求索突破摩爾定律極限的新路。業內已經有一些顯性路徑,比如通過存算一體設計,在底層硬件層面做優化。而從稀疏化算法,是從上層AI算法切入做芯片優化的另一路徑。無論是那條技術路徑,除了要向客戶證明其產品差異化,還要證明其技術完整度及TCO(總擁有成本)。

而在眾多技術路徑中,稀疏化計算在當時可謂人跡罕至。包括英偉達、英特爾等大芯片廠都還未有推出相關產品,而是在這兩年才有相關進展。

這也決定了墨芯在研發與落地過程中幾乎沒有同類玩家可以參考,挑戰重重。

三、硅谷20年芯片老兵+算法大牛創業,打造算法定義計算平臺

如何在毫無參考的情況下實現底層創新突破?

“很顯然,你需要有頂級的算法科學家,對于稀疏化計算這一套理論有很強的突破性和創新性,因為這個地方是最核心的創新源、創新點。”

王維告訴我們,令他有底氣的是,墨芯從早期團隊設置就兼顧了算法、架構、芯片設計的頂尖人才。

2018年冬天,王維從美國硅谷飛往卡內基梅隆大學,與正在讀博士的校友嚴恩勖聊了兩天兩晚,當即拍板基于稀疏算法做AI芯片創業。嚴恩勖是神經網絡動態稀疏算法發明者,曾在Google和Microsoft Research擔任研究員,在國際頂級人工智能期刊論文發表40余篇。

彼時,1700億參數的GPT-3大模型還沒有誕生,但關于通用人工智能發展的潮水已在業內暗流涌動。大模型意味著巨量數據和算力需求。時任英特爾芯片架構師的王維看到了其中的創業機會。

就在與嚴恩勖會面的幾個月前后,王維找來了硅谷20多年的好友。這兩位好友分別是有20年以上SoC芯片設計和團隊管理經驗的蘆勇,他曾任SK Hynix芯片設計總監和Marvell資深芯片設計經理;以及,擁有18年DSP、CPU處理器以及硬件加速器學術及產業經驗的肖志斌,他曾是阿里達摩院的核心架構師和研究員。

在半導體圈摸爬滾打20多年,王維、蘆勇和肖志斌深知半導體是一個成熟行業。

在這一行業,如果要尋求機會的話,一定需要一個爆發點的應用產生。就如同過去20年,PC、移動互聯網手機的興起,為半導體行業帶來的巨大空間一樣。現在,人工智能正在帶來新的大趨勢、大機會、大市場。

2018年8月,墨芯人工智能(Moffett AI)正式在硅谷創立。

墨芯取自其英文名Moffett的諧音,這是其創業起源卡內基梅隆大學硅谷校區的地名;同時,墨芯也有“墨子芯片”之意,致敬中國古代偉大的科學家墨子。

經過全面系統化分析推演之后,王維和幾位創始人已經一步步明確執行了其設立的目標——打造一個優秀的算法定義計算平臺,支持前沿的稀疏化計算框架。

四、兩年悶聲研發,一次流片成功,首顆芯片即量產

看好國內的創業大環境和市場,墨芯人工智能于2019年5月在深圳建立總部。

而此時,墨芯也正式完成研發首顆芯片的前期籌備。盡管團隊都是經驗豐富的芯片老兵,但由于稀疏化計算在國內外都沒有先例參考,墨芯的芯片真正完成研發轉去流片,已經是兩年后2021年5月。在這兩年里,墨芯除了拿下了來自基石、真格基金、深圳天使母基金、凱旋創投、將門創投領投、浪潮和智慧互聯產業基金等戰略投資的三輪合計數億元的融資,大多數時候沒有更多消息流出。

AI和大數據帶來的時代的變量,已經改變了半導體設計思路,悶聲做研發的墨芯是這一進程的親歷者。

墨芯選擇“算法創新,定義芯片架構”的策略,這與傳統芯片公司只攻底層的設計思路不同。簡單來說,這一方法是通過理解創新算法的突破,用這些新算法的突破來定義軟件架構,再往下定義硬件架構。

當下,市面上已有同行也在打造算法定義硬件或算法芯片化產品,但與基于特定場景做算法芯片化的做法不同,墨芯更注重應對通用性、易用性的基礎算力需求。聚焦數據中心AI算力需求的通用性,其在大數據里提取核心特征,為應用場景做決策和判斷。

“我們是一次流片成功,第一顆芯片就是量產芯片。”王維告訴智東西,“這件事情的考驗,完全在于芯片團隊,它是否有足夠的經驗和能力,能夠承擔得起一個這么大一塊芯片,一次流片成功。我相信我的團隊很好的、非常出色的完成了這個任務。”

五、流片半年已有多家客戶,構建生態發力三大市場

2022年被認為是中國AI芯片產業化落地元年。四年磨一劍,墨芯也正開啟稀疏化創新技術路徑的產業化推廣。

今年7月,王維已經談下了幾家客戶。流片成功僅半年,在互聯網市場,墨芯已在一些頭部互聯網公司進入適配階段;在行業市場,墨芯也與生命科學領域部企業項目落地。

在未來一個階段中,墨芯將圍繞互聯網、泛政府行業及垂直行業三大方向進行市場推廣。在定價上,墨芯不會采取低價策略,而是將整個算力服務器的TCO(總擁有成本)達到現有主流產品的1/2,甚至1/3。

在王維看來,稀疏化計算是一個通用的、正前沿的發展方向,它在技術層面上沒有什么局限性。現在最大的挑戰是關于稀疏化的計算生態。只有生態完備,這些產品能夠更快速的讓各個行業的用戶快速使用起來、熟悉起來。

因此,墨芯面對的下一步更大的挑戰是如何未來去建立一個生態同盟的合作關系。

在算法生態方面,由于墨芯是從算法創新,與當下主流算法框架高度兼容,已通過眾多SDK布局TensorFlow、PyTorch等主流框架接口,讓客戶在使用時好像“仍然是在用原來的平臺一樣”。

在硬件生態上,墨芯也與市面上主流服務器廠商展開合作,比如而在一個月前,墨芯剛剛與浪潮信息簽訂元腦戰略合作協議,通過加入計算生態進行市場推廣。而后,墨芯也將與其他服務器提供商以及運營商開放生態合作。

結語:AI芯片產業化驗證期,考驗創企多兵種作戰力

當下,隨著摩爾定律逼近物理極限,中國AI芯片創業也進入產業化驗證期。AI芯片創業大軍中涌現出不同技術流派的玩家,他們中既有幾十年經驗的芯片老兵,又有學術成果豐碩的AI算法后浪。這展現出中國產業發展至今的人才蓄水池的汩汩活力,是中國攻克芯片卡脖子難關的動力之源。

墨芯人工智能是這批創業大軍中的一支多兵種作戰隊伍,硅谷20年芯片老兵與AI算法科學家共同構建的團隊基因,讓這支隊伍在技術路線選擇上也獨辟蹊徑。稀疏化計算路徑,作為AI算法領域認可的一大發展趨勢,率先被這家芯片創企實現產品驗證。下一步,生態能否快速建立,產品能否快速推廣落地,是其面臨的新課題。