芯東西(公眾號:aichip001)
編輯 |?GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦。在主會場AI芯片架構創新專場上,億鑄科技創始人、董事長兼CEO熊大鵬以《AI芯片架構創新開啟大算力第二增長曲線》為題發表演講。

熊大鵬認為,AI芯片架構創新將開啟大算力第二增長曲線。如今摩爾定律面臨挑戰,以計算單元為中心的已到達天花板,將來AI芯片一定是以存儲單元為中心。

他談到如今算力提升面臨瓶頸,首要破局之路就是是解決數據搬運問題,并詳細展開闡述了存算一體技術對AI模型算力方面的支持作用。

在人工智能領域,存算一體技術正以前所未有的速度推動著計算效率與性能邊界的拓展。該技術涵蓋了存內計算與近存計算兩大主流路徑,旨在通過減少數據搬運、提升計算密度與能效比,為大規模AI模型提供強有力的算力支持。

億鑄科技于2023年首次提出存算一體超異構架構,并致力于通過基于新型存儲介質,提供高性價比,高能效比的AI大算力芯片。

億鑄科技熊大鵬:算力增長面臨挑戰,存算一體技術成破局密鑰丨GACS 2024▲億鑄科技創始人、董事長兼CEO熊大鵬

以下為熊大鵬的演講實錄:

一、AI芯片架構迎來第二增長曲線,大模型引領算力需求飆升

今天我這邊介紹一下AI芯片架構第二增長曲線。

大模型發展到今天已經從量變發生了質變,量變指的是大模型不斷加大參數等,能夠使得模型的能力不斷增強。質變,則是說當大模型容量到了一定程度時,人工智能尤其通用智能在某些方面超過人類,甚至后續的發展還會有更多超過人類的東西會出現。

同時,隨著基礎模型越來越完善的情況下,再加上大模型最后一公里的落地,包括AI智能體等等,對于AI計算能力的需求會不斷持續快速地增長。根據研究報告,市場規模已經從2022年不到100億增長到今年的780億美金。

從英偉達的財報能看得出來,去年其收入差不多700億美金,占了全球90%以上的AI芯片市場。預計到2029年,市場規模會到1510億美金,在這個過程中,我們可以看得到,2026年有可能會出現比較明顯的拐點。

這個拐點是什么?目前,全球更多的算力是花在大模型的訓練上,到2026年,大模型會在各個領域開始落地推動推理算力的進一步增長。

根據IDC預計,到2027年用于推理的AI算力占比可能會達到70%以上,未來95%以上都是推理模型一旦成熟之后,主要就是落地應用,落地應用主要就是推理。

摩爾定律已經遇到很大的挑戰,2019年OpenAI的研究表明,AI模型的計算量每年增長十倍,遠超摩爾定律一年半到兩年翻一倍。根據今年國信證券的研究報告,大模型的參數量每一年半增加35倍。

二、詳述AI芯片“三堵墻”,硬件架構突破很重要

摩爾定律已經失效,我們一定要尋求新的硬件架構的突破。探索新的架構,成為非常關鍵非常重要的一件事

對于AI芯片來說,一直存在三面墻存儲墻、能耗墻、編譯墻。這些墻根源來源于存儲墻,也就是所需要參數的存儲量越來越大,對參數的搬運量也越來越大。從這里出發,帶來很多的問題。

第一,存儲墻會帶來數據的堵塞,需要我們對數據流在動態過程中進行優化,這個也會導致軟件的算子要做非常深度的優化。所有這些都會使得能耗非常高,不管是數據搬運導致的能耗,還是因為模型非常大,對于計算能力的需求非常高。

繼而就會帶來能耗墻的問題英偉達最新的芯片B200,現在已經推遲推出,其中的原因就是封裝散熱的問題。現在一顆芯片號稱功耗超過1000多瓦,這是一個很恐怖的數字。

第三,就是編譯墻。要對數據流進行深度的優化,這就要求編譯器包括相應的工具能夠做得非常好,能夠提供非常好的優化工具。當然,這個很難做到,至少今天為止,我們做GPGPU公司很多人力物力包括資源都花在對算子、程序各方面的優化。這是為什么英偉達在軟件生態上占據很大的優勢,這也是一個主要的原因之一。

三、盲目堆算力不可取,存算一體技術可為AI模型提供算力支持

問題的根源其實還是來自于阿姆達爾定律。對計算架構基本實際有效的算力取決于兩個因素,一個α,一個F,α比較好理解,更好的工藝,能夠堆疊更多的計算單元在上面、能夠有更高的工作頻率,這個α值更高。

英特爾告訴我們,你買我更好的芯片,我的芯片工藝更好、密度更高、計算能力更強。但是我們買了它的電腦回去之后發現,其實它真正的計算能力并沒有提高,或者提高不多,為什么?

真正決定計算效率的還有另外一個原因,包括數據的搬運、數據的緩存、數據的整備所花的時間等等,這個時間在整個計算周期里面它占的百分比是F,如果這個值很大的話,你這個α值再高,其實最后它會碰到一個天花板,這個天花板是由F值設定的。

在AI大模型的時代,我們的AI芯片包括英偉達的AI芯片,用于數據搬運,不管能耗也好,還是它占用的整個計算周期百分比也好,都超過80%,甚至90%,就意味著英偉達如果繼續往下走,采取1nm、2nm的工藝,能收獲的性能提升也就是20%左右,基本到天花板。

為什么英偉達現在把更多的精力投放到跟存儲相關的,包括花很多精力去做HBM4.0。盡管這個東西做出來之后,最終賺錢可能是三星、SK海力士,但為了有效提升自己的AI芯片實際效能,這樣一條路必須要走。

將來的AI芯片一定是以存儲為中心,而不是以傳統的計算單元為中心來配存儲器。

這里舉一個簡單的例子,去解答F值怎樣估算,怎樣影響有效算力的。LLaMA2—70B每次完整計算至少有70B或者70G數據的搬運,并且這個數據搬運如果距離非常遠,所經過的節點非常多,搬運的時候頻率結點比較多,自然導致F值非常大,搬運70B所花的時間比較長。

現有的技術帶寬是很大瓶頸。舉一個例子,英偉達H100的算力大概是2000T,要把它的算力完全用滿,即使計算強度非常低的情況下,它大概需要1000T的搬運量。這意味著即使現在用HBM4.0,甚至將來10.0或者20.0,我相信帶寬也不夠。

同樣再往下走,用現在HBM3.0的技術的H100,大概是3T的帶寬,當然有另外一些種類可以到4T、6T,我們以3T作為例子,它的性能天花板就是42token,遠遠低于2000T的算力質量能夠達到的。當然它可以加上多用戶批處理,去把它的算力用得更多,但是它帶來的問題是延時比較長。

芯片本身能夠支持的用戶數量是有限的,不管內部的算子資源,還是并行度等等資源,會給它造成很大的限制。將來的模型會越來越大,我們相信帶寬的瓶頸會更加突出這些問題,F值進一步上升,越上升意味著算力實際利用率越小。

如果只是盲目往上去堆算力,其實意義不大。

四、第一增長曲線已觸頂,解決數據搬運問題成關鍵

以算力單元為中心的時代已經結束了,第二增長曲線一定是以存儲單元為中心。

我們做過分析,第一增長曲線基本已經到了天花板,像今天英偉達BG200不斷堆計算單元核,堆到1000多瓦,很難想象這是什么概念,比重慶火鍋的溫度還高很多。一定要想新的辦法去解決這個問題。

突破天花板有兩個途徑,從芯片層面,主要就是要解決數據搬運的問題。數據搬運的問題第一點就是,縮短數據搬運的距離和時間,如果沒有距離當然是最好的,縮短距離有很多不同的方式,包括近存、3D封裝、2.5D封裝等等。

另外一類,存內計算,計算和存儲在同一個單元。除了芯片本身之外,我們知道大模型一般來說用一顆芯片裝下去完成整個任務看起來不太現實,即使推理也需要多顆芯片來做,這時候做一件事可能是一個集群。既然如此,板件和板件的通信互聯、芯片和芯片之間或者芯片內部用Chiplet組成一個完整的芯片。

我們認為,芯片之間的互聯是解決這個問題的另外一個重要路徑。包括類似英偉達的NVLink、NVSwitch技術也應該是重點的研究方向之一。

存算一體有很多不同的技術路徑,有存內計算,有近存計算。

對存內計算來說存儲和計算融為一體,有不同的方式做到這一點,尤其模擬計算。但模擬計算有很多問題,主要是精度不可信。那些號稱8位精度、4位精度的,實際達不到。

數模轉換會吃掉很多的面積和功耗,三四年前,大家開始往數字化的存算一體方向轉,包括億鑄也算是在這個領域走得比較靠前。

通過數字化的方式,有優點,也有犧牲存儲容量的代價。理論上來說,存內計算可以讓F值等于0或者接近于0,是最理想的方式。當然它也有它的問題,最大問題就是它的存儲容量,普遍來說,不管使用了哪種存儲介質,要么存儲容量不夠理想,要么計算速度各方面不是特別理想,希望有新的更好的下一代的新興存儲能夠出來。

后期的演進,到了全數字化存算一體,細節不解釋,主要的原理就是每個存儲器只存放0跟1,如果是8位精度就是8位存儲器,如果是16位的精度就是16位存儲器,性能可能會犧牲,但是精度是可信的并且消滅掉了數模轉換最大的好處還是減少了或者消滅了數據搬運的瓶頸。

說到近存計算,可以想象一個存儲器,不管其類型是SRAM、FRAM還是DRAM,我們將數據存放到這里。然后,另一側有一個計算單元,其中包括可重構計算單元。存儲器和計算單元可以通過2.5D/3D封裝技術封裝到一起,二者之間距離很短,傳輸寬帶就變得很寬、速度很快。

另外,如果我們想處理像GPGPU相關的復雜計算任務,或者是邏輯計算等,也可以把這兩個功能的芯片封裝到一起,形成一個比較完整的AI計算芯片。這種計算芯片,在很大程度上突破或者緩解了數據搬運的帶寬和瓶頸的問題。

將各種計算單元通過2.5D/3D封裝技術封裝到一起,不同計算單元可以用各種不同的存儲介質,因為不同的存儲介質可能有不同的優點,也有不足,根據不同的應用場景可以去做適配。這樣做的好處是,會使傳輸帶寬遠遠超過HBM(高帶寬內存)技術,能效比和性價比接近存內計算。

存近計算與存內計算兩個相比較,各有優缺點。或許把存內計算跟近存計算有進行非常好的結合,其效果更能夠解決目前現實的問題。