智東西(公眾號:zhidxcom)
編輯?| ?GTIC

智東西4月6日報道,在剛剛落幕的GTIC 2023中國AIGC創新峰會上,墨芯人工智能創始人兼CEO王維進行了主題為《AIGC時代,算力如何“進化”》的演講。

AIGC與通用人工智能要發展,作為基礎設施的算力必須先行。隨著大模型參數日益攀升,算力需求激增,算力供需缺口巨大、費用昂貴等難題,已成為AIGC發展亟需解決的首要問題。

王維說:單純靠硬件難以滿足指數級的算力增長需求,必須通過軟硬融合。在這個方向上,稀疏計算是公認的最有潛力發展和落地的方向。相比稠密計算,稀疏計算可以達到1-2個數量級的性能提升。

通過在176B開源大模型BLOOM上的實測,墨芯S30計算卡在僅采用中低倍稀疏率的情況下,就可以達到25tokens/每秒的生成速度,并以4S30超過8A100的生成速度,大幅加速推理速度。

同時,墨芯預計在5月中旬開放大模型的開發套件,可以在1700億參數模型中實現每秒40-50tokens的推理效果,去助力各個AIGC的應用場景發展。

他認為:大模型的快速發展,給AI芯片初創公司帶來了向巨頭玩家發起挑戰的機會,擁有了全新的展示舞臺,用顛覆式創新帶來數量級性能突破。

以下為王維的演講實錄:

大家上午好!我今天講的是算力和模型的發展,以及算力進化的問題。

講算力的話,我們就要先了解一下今天的算力是從哪里來的?過去算力是處在什么情況和狀態下?未來,我們的算力走向何方去支持生成式AI巨大爆炸式的應用?

我們希望能量化地看待從供給側和需求側之間有多大的GAP,然后再看現在我們手上有什么樣的手段、什么樣的技術、什么樣的可以融合創新的方向去尋找新的算力。

一、人類數字文明建立在半導體集成電路之上

算力從哪里來?人類過去接近一個世紀的數字文明都是建立在硅基半導體制造的芯片之上。

我簡單帶大家回顧一下算力發展歷史過程。歷史上最重要的一個人是肖克利博士,他是麻省理工固體物理學博士,加入了貝爾實驗室。1947年,他在貝爾實驗室發明了人類第一個晶體管。1955年他回到家鄉Santa Clara(圣克拉拉)。這也有很多巧合因素,為什么Santa Clara變成了現在的硅谷?為什么偉大的科學家或者商業家會從那個地方開始啟蒙?

肖克利博士在圣克拉拉建立了第一家半導體公司。源于他在學術界的威望,這家公司吸引了一大批能人志士加入。但因為他是科學家,所以在管理層面上出現了一些問題。

1957年,硅谷出現了“硅谷八叛徒”,這個稱號是肖克利博士對他們的稱號。原因在于這八個人由于不滿肖克利的管理方式而從這家公司“出逃”,創建了著名的仙童半導體。

我認為仙童半導體是集成電路發展史上開拓性或具有宗師級意義的企業,1961年仙童半導體推出第一塊集成電路,把晶體管集成在硅基的集成電路上,就是集成二極管、三極管、電阻、電容,才有了集成電路的發展。

50年代到60年代間,整個半導體行業發展非常迅速,那么為什么又出來英特爾這些公司?原因在于,當時仙童半導體公司的投資人菲爾柴爾德家族占有了其絕大部分股份,把公司產品的利潤和所有的資金挪到東岸其它產業方面。而在半導體產業里很有理想的工程師、科學家們對此十分不滿意,1968年八叛徒中的戈登·摩爾和羅伯特·諾伊斯離開了仙童半導體,成立了今天大家熟知的英特爾。

還有一點大家可能不太熟悉的是,1969年杰里·桑德斯從仙童半導體出走,成立了今天的AMD公司,ADM的發展歷史也很傳奇。

后面大家都知道了,我們的計算、算力都是遵循著摩爾定律在CPU的基礎上發展。

當時,摩爾提出摩爾定律的背景是,1965年,摩爾給《電子學》期刊做35周年觀察家評論報告時,他發現過去這幾年集成電路的發展基本每兩年出一代新產品,并且每代新產品晶體管的數量翻了一番,他就在這個圖上畫出了著名的摩爾定律,就是今天所知的每18-24個月,晶體管的數量翻一番,或者從經濟學的角度說,每過兩年,每1美元可以買到的算力翻一番,成本降低一倍。

從1971年第一塊4位CPU英特爾4004,1972年8位CPU 8008,再到今天熟知的大半個世紀的發展,都遵循著摩爾定律。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

和我們的生活和應用場景相關的這幾十年,在最早的Wintel聯盟時代,英特爾提供芯片,Windows做操作系統。當時有一句話說,英特爾每兩年提供算力double一下,比爾蓋茨把它給用掉。再后來到移動互聯網時代,邊緣端手機側和云端的云計算等算力都在不斷演進。

我創立墨芯之前,曾有幸參與英特爾2012年22nm第五代酷睿處理器,一直到2019年做到英特爾第十代10nm CPU。英特爾每一代CPU里面我很驕傲地設計了這些芯片里面的核心高速鏈路架構設計和電路設計。

對于我個人來說很有成就感,每每想到全球每個角落、每個用戶敲一個鍵盤、動一下鼠標,每一個字節0和1都通過我做過的電路實現,這是我人生事業一個非常大的成就。

二、AI 1.0向2.0進化,硬件層面找不到滿足算力解法

剛剛回顧了一下算力發展的歷程,我們仍然還是沿著摩爾定律發展,在物理層面上我們擺脫不了摩爾定律。從需求側我們看一下發生了什么樣的根本性變化。

這張圖大家非常熟悉,這就是過去十年AI的發展歷程。我相信AlexNet是第一個深度學習非常有代表性的且開拓了深度學習的紀元,今天以GPT-3.5生成式AI作為一個爆點,可以看到AI從1.0轉向2.0,之所以會引起社會這么大的關注和影響力,更多的是因為,從1.0到2.0,小模型或者之前的模型從分析式變為今天的生成式。

生成式給大家打開了應用的想象空間和大門,商業化不再被擔心,唯一擔心的是我如何能夠趕上這個潮流,以及多快能夠趕上的問題,這也是為什么今天會成為一個爆炸性的時刻。

從算法角度來看,我們把1.0時代歸納為小模型時代,2.0時代就是以Transformer為基礎的大模型時代。正是因為1.0到2.0的變革,才導致對算力提出了根本性的挑戰和變革。

小模型時代,有AlexNet、ResNet、CNN模型、RNN模型,這些小模型的特點是,在每個細分場景會用場景數據去訓練小模型,并且研發和部署的周期很短,是以周和月為單位去部署,對算力的要求更多是通用性和易用性,在這個基礎上其實對成本、功耗的要求在大部分應用場景下不是痛點,是癢點而已。

原因在于,英偉達GPU平臺可以做矢量和張量并行計算,它很早做了CUDA工具包,對科學計算到底層并行架構在軟件鏈路的積累,使得這一平臺很好用且通用。所以在小模型時代,大家會更多選用GPGPU。

但是回到大模型時代,對算力的需求完全不一樣。模型結構不再多樣化,我們通過Transformer做大模型預訓練,所有的模型結構統一化,對算力的需求更多在于擴展性。從GPT-1到GPT-3、GPT-4,Transformer模型需要“暴力出奇跡”。

ChatGPT應該是在訓練方面找到了更聰明的方法,使得它在生成式上產生突破。但從模型角度來說,仍然是暴力出奇跡。其實所有的深度學習都是特征提取器,當你學的東西越多,你就需要更大的空間矩陣、張量空間承載信息,所以它的模型是暴力增長。

預訓練正是因為需要它先把所有東西學一遍,再到細分場景上精調,因此算力需求不僅僅看中通用性、易用性,更看重的是算力能不能跟上模型的增長速度、跟上算力需求速度,使得我可以更大規模拓展模型,用更先進、更聰明的方法訓練出更厲害的預訓練模型或者場景應用等。

總的計算算力增長和在應用層面上的推理速度就變成了絕對的痛點。而又因為生成式AI基本上都是在線應用,所以系統的反應速度一定是痛點。訓練層面上,需要很多GPU,訓練很長時間,那么高算力也一定是痛點。

這種情況下,通用性問題就可以被容忍。因為底層都是Transformer架構的注意力機制,在模型的算子層面慢慢固化,這個就是我們算力的需求在發生變化。

那么,提供算力的人怎么去滿足它?我們可以看到Transformer模型參數每兩年增長275倍,對算力的需求是每3.5個月翻一番。而摩爾定律是每兩年翻一番,參數是275倍和2倍的增長速度,這中間是兩個數量級的GAP。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

所以,僅從硬件層面上,我們找不到完美的答案。

現在解決這個痛點的手段包括做存內計算、光子計算、量子計算等。存內計算的局限性在于它很難做浮點高精度計算,不支持先進制程,使得其應用距離解決目前的問題還有很大差距。光子、量子計算的生態體系和現有的軟硬件生態也有很大距離。我承認,它們在實驗室里有很大發展前景,但未來五到十年內仍需要依靠硅基半導體。

三、在算法里找“聰明辦法”,稀疏計算最具潛力

軟硬融合就是在算法方面尋找更聰明算力的一大方法,軟硬融合的稀疏計算就是整個業界、學術界公認的最有發展潛力,并且可以落地的方向。

借用模型的增長曲線,圖中橘黃色的線是整個產業界、學術界發表的稀疏計算研究論文數量。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

大家可以發現在小模型時代GPU很好用,并行化加速、成本、速度都可以被企業接受。因此,這一時期對于稀疏計算的研究更多是在算法層,而突然到了大模型指數級增長時代,大家發現,大規模矩陣張量運算中有很多稀疏特性,不能再暴力把零元素、噪音元素都進行計算,我們需要做更聰明地計算,只計算真正有用的計算,這也正是稀疏計算的本質。

最近在學術界以及產業界的頭部公司,比如最近混合專家模型MoE架構就是用了稀疏計算思路,不需要每次都激活所有的專家子模型,只會在通過某些通道的時候激活有必要的專家子模塊,這樣的話,在有限的算力情況下模型還可以繼續拓展。這是稀疏計算的核心思路之一。

最近谷歌和OpenAI同時發布了一篇論文,該論文比較了稠密計算和稀疏計算的性能和加速,稠密計算的模型計算速度能在CPU上跑到3.61秒。

如果以稠密計算作為基準的話,把所有的Transformer大模型每一層,如FF、QKV和loss全部都用等效稀疏計算的話,稀疏計算可以提升37倍。也就是說,真正有效的計算通過稀疏計算可以達到一到兩個數量級的性能提升,這也向我們展示了稀疏性確實存在于模型里面,關鍵的問題是你能不能找到它,要用什么樣的方法實現它。

2018年,我在硅谷創立墨芯,2019年回到深圳的時候,最開始我們就看到了稀疏性,并且看到了它一個數量級、兩個數量級上的性能增長空間,我們這三四年來也一直篤定堅持做稀疏計算平臺。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

微創新技術是大公司做的事情,以非常高成本的Chiplet為例,它是在硬件層面解決倍數問題,而不是解決數量級問題的技術。創業公司要做的是要看到數量級增長的技術空間,只要你篤定地去做,即使前面難一點,但只有這樣,未來的空間才能突破、才沒有上限。

四、以人腦為靈感,稀疏計算已成產學界重點研究方向

對于墨芯來說,作為業界稀疏計算的引領者,我們做了什么事情?所謂的稀疏計算到底是什么意思?我們的AI芯片和英偉達的GPGPU有什么區別?

英偉達基于V100的Tensor Core GPU是4×4矩陣并行加速單元,通過幾萬個、十幾萬個并行單元去加速矩陣運算、張量運算等。

之后,英偉達也同樣知道模型有稀疏性,稀疏是未來。到了A100的時候,英偉達在原有架構基礎之上,在模型矩陣層做了4拖2,也就是說4個里面有2個加速,理論上就可以加速一倍。

對于GPGPU公司,稀疏計算是它們的“意外收獲”,可以在原有性能上提升一倍,但墨芯要做的事是超過它10倍甚至100倍。

墨芯采用的Sparse Tensor Core是64×64的矩陣空間,2個Tensor矩陣空間里均支持高達32倍的稀疏率。2個矩陣空間分別代表計算模型層的矩陣空間和激活層、神經元層的矩陣空間。

在模型層,并不是所有的矩陣里都是有用的元素,當我們把這么多有用的信息提取出來放到一個巨大的矩陣空間里,它的表現形式就是濾波器,濾波器之間的距離就是表示特征之間的特性。所以這個巨大的矩陣空間是稀疏的,隨著模型越大、學的東西越多、特征區別越細粒度時,模型按指數級增長,稀疏率也會按指數級或者更高的速度增長,這就是模型稀疏。

激活稀疏,我們的大腦學習、理解都是激活稀疏,人有百億級神經原,大腦的功耗只有幾十瓦左右,當我們處理不同的事情、思考不同問題時,對眼睛、耳朵反應激活的神經原層面不一樣,只有局部激活。包括混合專家模式也是一樣的,對于不同模態、不同專家系統只需要激活部分模塊。這就是墨芯底層的張量和支持大規模稀疏的矩陣和矩陣并行加速。

五、12nm VS 4nm,墨芯S30性能是英偉達H100 1.2倍

那么,稀疏計算在效果上到底怎么樣?

我們研發了三年,2022年初墨芯第一顆高稀疏率的稀疏計算芯片Antoum流片成功回片,而且在幾秒鐘之內就點亮,不到24小時跑通了ResNet、BERT。

基于Antoum芯片,我們制作出了三款AI加速卡S4、S10、S30。因為墨芯的客戶是云計算客戶,不是直接用芯片,而是需要用GPU這樣的AI加速卡。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

國際上最權威、影響力最大的AI基準測試性能平臺MLPerf,是由圖靈獎得主大衛·帕特森聯合谷歌、斯坦福、哈佛大學頂尖學術機構,還有英偉達、英特爾、微軟云、谷歌云等發起成立,這一平臺每年有兩次性能的評比和提交。

去年8月,墨芯帶著第一款S30在MLPerf 2.1推理性能上與其他產品上臺競技,結果是基于12nm的S30單卡算力超越英偉達4nm的H100,ResNet性能是它的1.2倍。12nm VS 4nm,在工藝上墨芯落后英偉達三代,中間還有10nm、7nm,除此以外,H100采用SXM模式,是700瓦大芯片,不是PCIe板卡。墨芯的S30不到300瓦。也就是說墨芯的工藝落后英偉達三代,功耗接近其1/3,但性能可以做到1.2倍。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

如果大家說你只是做一個CNN模型,Transformer怎么樣?墨芯的BERT-Large做到單芯片超3800 SPS,僅次于英偉達H100,H100大概為7000、8000 SPS左右。

不過,墨芯仍然超過了現在經常斷供、缺貨的A100。墨芯在BERT的性能上是A100的2倍。在BERT上輸給H100的原因是,H100加入了新的數據類型FP8,但墨芯的第一代芯片只支持FP16。如果我們的下一代芯片支持FP8,那我們的性能也會翻倍,這樣性能就和H100差不多,這些都是我們看得見的可以實現的優化,只不過是什么時候可以實現的時間問題。

六、“稀疏計算方向是對的!”,推理效果超A100

正是由于MLPerf的打榜,給行業揭示了一件事情,軟硬件設計的稀疏計算潛力有多大,三代半導體工藝的差距,性能差距會達到八倍,三個數量級,同時功耗會是它的1/3,簡單乘一下那就是24倍。

如果我也做4nm、做700瓦的功耗,那這個性能就會再往上提20倍。

我們默默無聞做這一件事做了三四年,就是想告訴大家,這個是對的方向。大模型時代到來,就是我們開始發揮的時候。

之前,你的客戶可能會問,通用性怎么樣?算子支持度怎么樣?易用性怎么樣?當然,我們任何一家AI芯片公司在生態上都無法和英偉達匹敵,但是今天我們走上了快車道。大模型的發展和算法的發展速度,給了今天的AI芯片公司一個全新的舞臺和展示機會,使得它們可以在一個更高的維度上和過去的霸主進行競爭和挑戰。

在大模型領域的實踐和突破中,我們拿不到ChatGPT的模型參數,因此我們選用了學術界最知名的BLOOM開源庫,176B的開源大模型。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

在這樣一個開源模型下,墨芯目前做到的推理效果是在中低稀疏倍率下,同樣是176B大模型,用4卡的S30對標英偉達8卡的A100。

生成式AI對于時延的要求非常高,因為它需要一個一個token去算,因此對速度的要求是未來大模型上線的第一個痛點,也是最明顯的痛點。

墨芯測試時1700億的參數模型,A100每秒可以產生20左右個token。因為墨芯做了模型壓縮,因此墨芯在實驗室使用4卡,不需要用8卡,其可以做到稍微比A100好一點的性能,也就是每秒鐘25個token。不過,我們的目標是在1700模型中做到每秒50個token。大家作為開發者的話,可以知道這個性能和速度已經到了極致。

七、5月中旬開放開發套件,堅持“科技向善”

大家很關心的一件事情就是什么時候可以試?我們預計在5月中旬去釋放大模型的開發套件,在1700億參數模型中做到40-50token/秒,去助力各個AIGC的應用場景發展。

我們作為一個科技工作者,看到生成式AI和AGI到來的突然性和其未來的進化速度,不禁讓我們既興奮又驚恐。

我拿人的大腦和ChatGPT做一個類比,ChatGPT是1750億參數,對應人的大腦是千億級的神經原,神經原之間的連接關系Synapse是100萬億。如果對應深度學習模型,我們需要拿連接關系和它的模型參數做比較,1700億到100萬億,中間相差三個數量級,也就是至少差1000倍。

人腦的計算速度大概是硅芯片計算速度的1/1000,差三個數量級,人腦耗電大概在20瓦左右,數據中心千瓦級。我們會遐想,看到AI在知識領域的進化速度,人類能夠超越或者不被機器取代的領域已經非常少了。

前兩天我看到一個非常有意思的漫畫,以前我招一個人給他配一臺電腦,今天我招一臺AI電腦給它配一個人,這個就是我們對于未來的擔憂。

考慮到算法進化速度,當然前提是你有多少算力,因此我們是參與其中的。

如果今天的AI模型從1700億進化到100萬億,和大腦相當的時候,它的計算速度是我的1000倍,同時也是稀疏計算的時候,并且當我們的訓練方法越來越聰明,我們在知識領域能干的事還會剩下多少?最恐怖的是,如果我們新的訓練方法使得它有了自我的進化意識,這會讓我們非常擔憂。

作為AI前沿浪潮的參與者,我們都在關心一件事情,不僅僅是技術,更是AI發展的倫理、法治和道德層面。

所以,我在公司成立的時候就想好了這件事情,墨芯的使命和價值觀一定是科技向善、照顧弱小、利他利社會。

你可以想象,如果未來我們的社會掌握在一小群極致聰明的人手上,我們的生活被他們照顧,甚至我們的下一代的教育,這也是我非常擔心的問題,以后孩子們要學哪些東西?尤其應試教育比較多的方面,以后人要往哪方面發展?

最后,回到這個基礎之上,微軟說要做負責任的AI,保證安全性、可控性,這也是OpenAI不開源大模型的原因之一。谷歌的口號是“我們不作惡”。

墨芯的口號是“科技向善”,我們去賦能和支持AI的發展,但是一定要做善事,把技術應用于善待人類、照顧人類。有一段時間我們自嘲地說,AI芯片就是類似于這場AI戰爭的“軍火商”,“軍火商”大部分是貶義,這也迫使我們去確立我們的使命和價值觀,也就是只能把“軍火”用在做善事上。

墨芯是一家稀疏計算公司,我們開拓和引領稀疏計算,謝謝大家!

以上是王維演講內容的完整整理。