芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦,在主會場開幕式上,蘋芯科技聯合創始人兼CEO楊越以《存算的進階——從神經網絡到大模型》為題發表了演講。

蘋芯科技聯合創始人兼CEO楊越拆解了存算一體技術的進階過程。產業界主流芯片的出現和成長與當下計算需求的特點緊密相關,2015年前后,計算體系結構中的計算瓶頸從處理器端向存儲端遷移,尤其是神經網絡的出現,加快了人工智能(AI)芯片計算效率的提升節奏,存算技術因此受到關注。

楊越認為,存算一體技術在大模型時代的新風口,是盡量在有數據存儲的地方,都加入計算。隨著軟件不斷發展,基于存算的端側芯片今年已經逐步成熟。未來,在云端解決數據帶寬瓶頸,或將成為存算芯片下一個殺手級應用。

蘋芯科技楊越:拆解存算一體技術進階,解讀大模型芯片的四個優化方向 | GACS 2024

▲蘋芯科技聯合創始人兼CEO楊越

以下為楊越演講內容的完整整理:

存算一體技術是解決當下算力焦慮和效率焦慮的有效途徑之一。蘋芯科技是以存算一體技術為抓手的一家芯片設計初創公司。今天,我們的話題圍繞著AI芯片展開,演講的主題是從AI 1.0時代的神經網絡,走向AI 2.0時代的大模型,存算一體技術如何持續賦能。

一、存算一體的誕生:數據處理瓶頸從計算端,轉移到存儲端

我們不難發現,產業界所有主流芯片的出現與成長,都與當下計算需求的特點緊密相關。

最初,斯坦福實驗室于1969年首先提出了存算技術這個概念。后來,1992年在多倫多大學,1997年在伯克利實驗室,相繼嘗試以邏輯電路的形式拉近存儲與計算的距離。

但在上個世紀的計算機體系的整個架構中,計算的瓶頸位于處理器端,因此大家主要提高了CPU的效率。同時,外加摩爾定律當時仍然有效,從存算的角度來說它的殺手級應用還沒有出現。

2000年前后,大數據對于并行計算的需求逐步加大,以英偉達為代表的GPU芯片逐漸成為主流。英偉達的市值現在已接近3萬億美元了。GPU這種架構對于高級制程升級,以及對于通用性計算支持都是非常好的。

大概到了2015年,隨著神經網絡架構的出現,存算技術受到更多關注。背后的原因主要有兩方面。

一方面,計算體系結構的計算瓶頸開始向存儲端遷移,存儲墻、能效墻的問題逐步浮現。

另一方面,AI本地化要求芯片具有更高的計算效率要求。過往馮·諾伊曼架構的數據搬運模式并不能滿足AI芯片的計算效率,但神經網絡架構突破了這一點,并且用存算技術可以有效支撐AI推理中大部分的陣列式運算,這也給存算技術帶來了寬廣的商業化空間。

我們可以了解下馮·諾伊曼架構與存算一體架構間的區別。將一個計算結構分為計算單元和存儲單元兩部分。絕大多數芯片能耗都浪費在數據搬運上,占比超85%。如果我們把這部分節省掉,一定程度上,計算效率能大幅提升。

在馮·諾伊曼架構中,需要計算時,數據先從存儲單元里面讀取出來,通過數據種線傳到計算單元,運算完成后,結果會返回到存儲單元。我們發現,計算總線上數據搬運得非常頻繁。

相比于馮·諾伊曼架構,計算體系內還有存內計算架構、近存計算架構等。近存計算的方式是不斷縮短存儲和計算單元間的距離,而存內計算就是把這個距離縮短到極致。

在存算技術架構中,計算單元和存儲單元放在了一起,計算總線上數據搬運頻次降低了,總量也減少了。

不過,當計算單元所需要做的事情,簡化為只是給存儲單元發出開始計算的指令,這個架構也相應會有一些劣勢。原因是并非所有的計算種類都依靠一些簡單的指令,便能夠在存儲單元中完成。這種架構需要犧牲一部分通用性。

我們評價一個架構的時候,主要考慮其通用性、專用性、成本這3個指標。相比馮·諾伊曼架構來說,近存和存內計算架構不僅專用性更強,而且成本更低。

二、存算一體的意義:動用更少的資源,來高效解決更多的計算任務

大多數情況下,不同的存算技術路線指向的是底層對于不同存儲器件的使用,比如說有靜態SRAM,也有ReRAM。每一種存儲器都有其工藝特點,甚至還有上層成本特點、性能特點等等。

例如,SRAM耐久性比較好,讀寫速度比較快;ReRAM存儲密度高,可以支撐大量模型存儲。然而,從整個計算系統結構來看,很難說有一種RAM通吃市場,歷史上這種事情也從來沒有發生過。

我們對比了幾個主流的、基于CMOS結構的存儲器,比較的項目主要是讀寫時延、數據穩定性、功耗等幾個方面。

做推理運算的時候,無論是算法工程師,還是芯片工程師,可能更關注存儲器的穩定性,以及讀寫的速度。

而在訓練場景中,大家可能更關注存儲器的耐久性,以及讀和寫的對稱性。因此,不同的應用場景對于底層存儲器的需求和選擇也會有所差別。

與現有的存儲器相比,SRAM產業化基礎、產品化基礎比較好。過去幾十年,SRAM和DRAM在計算體系結構中從未缺席。

硬件各有所長,市場各取所需,那么存算技術的意義是什么?

存算技術突破了馮·諾伊曼架構處理器的計算效率天花板,而選擇存算架構的處理器能用更小的能耗完成更大的計算任務。

我們最終交付給客戶的芯片,通常有多種形態。NPU主要可以提升神經網絡的效率,可能涵蓋矩陣加速、非線性加速等。基于NPU還可以打造端側SoC,比如MCU+AI、車載SoC等。云端也相繼出現服務器板卡、加速版卡等。

一般來說,對精度要求比較低的隨機運算,對精度要求比較高的科學運算,精度要求介于兩者之間的信號處理、深度學習加速等,都可以借助存算技術為其賦能。

隨著模型規模不斷突破上限,無論是神經網絡模型、Transformer大模型,還是大家最關心的生成式模型,其存儲要求越來越高,帶寬越來越大。其中,生成式模型已經出現幾百億,甚至更大的參數量需求。

AIoT領域十分看重智能化升級和功耗能耗,存算技術的高能效比可以發揮出較大優勢。因此,存算技術可以為大模型、AI芯片賦能,其落地場景也大多集中在AIoT領域。這也給存算技術創造了一個進軍AI生態的切入口。

三、蘋芯科技部署SRAM存算一體端側模型

我們回顧一下產業界近期的動態。今年,存算技術的應用,首先實現端側的產業化落地。

蘋芯科技正在推進SRAM存算一體端側模型部署。

首先向大家介紹蘋芯科技的一款NPU,它是一個集成在SoC芯片里面的IP,用于執行神經網絡的加速任務。

如果您的產品里面有簡單的語言控制類、圖像識別類的任務,這款NPU能幫你大幅節省整個芯片集成的時間,從而讓你的產品可以比競爭對手更早推出市場。

性能上,我們現在可以交付28nm和22nm的NPU,整個靜態功耗可以做到1mw以內,工作功耗可以做到幾毫瓦以內,并且它的面積僅有幾個平方毫米。它可以滿足端側小型化、智能化設備開發商對一款NPU芯片的所有想象。

功能上,這款NPU可以支持目前市面上所有經典神經網絡的加速,比如圖像識別、物體監控、智能超市、運動分析、健康數據分析、圖像分割等。

我們還可以允許用戶對這款NPU二次開發。我們所有的編程接口都是以算子為節點,現階段支持12大類、超過100種的基礎神經網絡算子結構,極大豐富了用戶二次開發的工具箱。這些算法結構里,不僅有存算技術擅長的線性運算,還覆蓋了非線性運算。

其次,基于這款自研的N300,蘋芯科技推出了SoC芯片,名為“S300”,主打多模態和環境感知的功能。

S300內的神經網絡加速部分采用了28nm的N300。這款芯片可以對接攝像頭、麥克風、陀螺儀,從而實現用一款芯片覆蓋更寬泛的應用領域。

S300的核心能效比超過20TOPS/w,可以實現離線交互,不依賴于wifi、5G,也能語音識別、圖像識別等。像無人機、智能家居、智能玩具、智能座艙,都將是這款芯片的應用場景。

最后,我們的目標市場比較清晰,主要是可穿戴市場和AIoT市場。

我們發現,目標市場未來的產品有一些共性。一方面是輕量化、便攜化的趨勢,要考慮到無法插電源工作的情況。另一方面,都有從非AI類轉向AI類的產品升級需求。其中,技術層面會存在矛盾,即系統內部算力不斷上升,但供電量不斷下降,這亟需高能效比的技術來支撐AI類產品。

基于對市場體量的預測,到2025年,可穿戴類產品已經有超1000億元的市場規模。這類產品將趨于小型化、輕量化、便攜化,因此內置的芯片會特別小,一般在10平方毫米左右。除此之外,端側的本地算法會不斷升級,本地電池也會不斷變小。

面向AIoT行業,我們看到全球到2030年有超過10萬億級別的需求。目前,AIoT場景內的產品,特點是碎片化,這需要較強的軟件層面來支持其泛化能力。

四、大模型時代要升級用戶體驗,存算技術才是核心驅動力

回到今天的主題,存算技術已經在神經網絡里實現較為理想的應用落地了,那么在接下來的大模型時代里,存算技術又可以做什么?

我們要去理解大模型行業正在發生著什么。由于大模型的出現,AI的泛化能力逐步增強,大模型的生態格局也被重新塑造。但是不管最后怎么樣變化,大模型行業核心的驅動力,都來源于用戶體驗的提升。

舉個例子,過去大家獲取、檢索信息以搜索引擎為主,現在方式更加靈活、更加實時,還能通過對話的形式獲取信息,甚至更加智能化、多模態化,這也催生了不同的應用形態。

此外,從智能決策、個性化、交互、集成調度、執行準確這5個方面,用戶都對新的交互方式提出了不同的要求。

同時,用戶有多大的付費意愿、想支付多少費用,來換取基于大模型的用戶體驗。這給底層AI芯片到產品的構建,都提出了不同的要求。

分析上述各類需求后,我們發現大模型行業里所有公司,都在試圖切入這個生態。我們經常在行業里面聽到一句話,“AI可以把現在所有的軟件都重寫一遍,也把所有的硬件都重新設計一遍”。

這句話可能每個人理解得不一樣,但大方面確實如此。無論是科技大廠,還是創企,都在用顛覆式的創新適應大模型行業。

科技大廠通過AI聊天機器人來完成AI升級。

一些公司則更關注生產力場景,用AI創作內容、提升工作效率。而像一些垂類場景,部分公司選擇通過AI+解決方案的方式,切入中間模型層。

大模型公司會提供更好的模型使用工具,優化開發者生態,來構建底層MaaS這樣一個云端的應用新業態。

專注于端側的公司也在不斷切入端側的應用。蘋芯科技也是其中一家。我們把模型不斷做小,參數量從700億到70億,甚至到10億,最終把模型嵌入到家居類、機器人類、智能對話類的應用中。

蘋芯科技對于自己的定位也非常清晰,我們只把自己看作是一個算力基礎設施的提供者。我們關注云側和端側的算力構建,同時也關注AI推理類的芯片。背后的主要原因是,推理類運算更加符合存算一體技術的性能特點。

我們的客戶價值主張就是低成本,而低成本有兩條路徑,一個是降低芯片的制造成本,另一個是降低芯片的使用成本。

制造成本方面,我們不依賴7nm、4nm等高級制程,但仍然可以實現高能效比,這是解決當前算力焦慮和能效焦慮行之有效的路徑。

使用成本方面,客戶愿意支付多大成本,去為電量付費,去用延長AI硬件待機時長,這都是我們需要關注的內容。

基于大模型能力,我們當前有兩個拓展方向。

第一個方向,我們仍然相信Scaling Law,模型越大,能力越強。這個宗旨的追隨者主要開發云端產品,包括訓練和推理,這也是目前主流加速器還是GPU形態的原因之一。

在Scaling Law路線上大家更關注存儲容量、通信帶寬、互聯能力和構建成本。云端服務器產品、加速網卡等,在產品設計層面的定義基本圍繞這四個維度。

第二個方向,與第一個方向從模型角度來看是相反的。大家選擇把模型越做越小,在知識圍欄領域內,把模型內置到嵌入式硬件中。

在路線二當中,最重要的是產品定義的能力。大家的訴求更多是數據安全、通信延遲等,更關心的是芯片面積、功耗。產品形態上,大家則將更多重心放在AI手機、AI PC,以及AIoT領域從神經網絡到大模型能力的升級。

五、大模型芯片架構,可以從四大方向著手優化

針對大模型的芯片架構,從宏觀上看,我們有4個優化方向。

以Transformer算法結構為例。第一個是存儲架構的優化。

大家已形成一個共識,即模型的升級會給存儲架構帶來非常大的壓力,其中包括存儲模型的權重、參數、中間數據轉移等。

我們提出了一個內存估算的公式。如果單獨跑一個70億模型的訓練任務,大概需要7張24GB的4090芯片才能完成一個任務。保守來說,一個推理任務的規模大概是上述訓練任務的1/3到1/4左右。那么,當模型參數量增加到幾百億、幾千億以上,存儲架構的壓力非常大。

第二個是數據交換方式的優化。

存儲架構的壓力會波及數據交換環節。單個GPU的存儲空間有限,芯片整體性能的表現也會受限。

現在主流的解決方案,包括HBM方案、GDDR方案等。GDDR側重于通過提升工作頻率來增加帶寬,HBM側重于通過提升運行度來增加帶寬。前者性價比更高,后者則在帶寬計算能力上有絕對優勢,不過HBM的成本也較為昂貴。

第三個是成本的優化。

如果我們把H系列,或者市面上比較主流的芯片拆開來分析成本架構,會發現第一影響要素是工藝制程的選擇。

第二影響要素是IP的價格,是否使用了非常昂貴的IP,像HBM的IP、高級封裝IP、互聯IP等。我們是不是可以在犧牲通用性的前提下,進一步降低成本?

第四個是通用性和專用性的平衡。

這永遠是一個矛盾的主題,現在絕大多數都去談論像CUDA生態兼容這方面。某種意義上,在設計模型的時候,CUDA能夠提供的精度和算子是開發的基礎,并且對底層性能的調優時,也要有一定的容錯性。

對于專用的芯片,我們關注到美國那邊新提出的一個概念,用軟件定義硬件,從而能夠減輕或者甩掉數據搬運的包袱。這也是一種很主流的芯片設計趨勢。

六、存算技術滲透計算機體系“金字塔”的各個環節

從微觀上看,存算技術可以做些什么?

存算技術目前是一個比較寬泛的概念,有數據存儲的地方都可以加入存算,搭建存算一體的結構。

在整個計算機體系當中,存儲器是一個金字塔結構,金字塔的各個層級出現了一些非常有趣的創新做法。

以最近中科院計算所一個非常有意思的項目為例,他們打造了一個所謂的SMART SSD,這是最外層的存算,在硬盤里面做存算。硬盤其實是一個TB級別的存儲空間,在硬盤上存儲的數據更多是非結構化的數據。在硬盤主控芯片上集成一些NPU顆粒,存儲控制顆粒,這對數據早期的清洗以及結構化提供了很大的幫助。

再往金字塔下層走,就來到了內存條。

最近三星和UIUC有一個基于CXL層面的優化,是充分利用LPDDR5X打造了一個智慧內存條。

具體來說,這個智慧內存條基于DFX結構,修改并加入了智能化能力。原本它只具備GEMV加速的能力,但是現在加入了支持通用型矩陣的計算能力,如果沒記錯是64×32,浮點FP16,從而提升效率。

相比于傳統的GDDR、DDR5內存技術,它容量上擴大了16倍,在吞吐量、能效比上也獲得了明顯的優化。

再往下走一層,就來到我們熟悉的HBM。目前主流的HBM2、HBM2e已經達到非常強大的效果,擁有大幾百GB的帶寬能力,但成本非常高。

最底層,通過GEMM優化SM實現帶寬加速后,數據傳輸速率可以達到幾十TB每秒。同時,還可以把算子級的能力,像矩陣的加成、Embedding集成放到硬件里面去做。

結語:存算技術率先在端側商業化,未來或將上“云”

縱覽時間軸,存算一體技術已經走過了四個階段。從最早期的院校研究,到現在商業化落地,后續將集成更大、更強的計算能力。

其中,最重要的一個進階維度就是商業價值的進階。存算一體技術從最開始的實驗室研究價值,到現在能夠真正為那些遇到存儲墻問題的企業解決實際問題。該技術最先在端側落地,例如嵌入智能硬件、延長續航時間、增強本地智能化能力,以及初步萌生多模態能力等。

存算一體技術在商業價值上的進階,與其他維度上的進階密不可分。其中包括芯片存儲器的成熟,算力從零點幾TB到幾TB,再到幾十TB的升級,底層電路結構的優化,軟硬件協同,甚至還催生了軟件、編譯器、工具鏈的成熟。

未來,存算相關的路線或者說要解決的問題,首先便是異構能力的增強,既包括存儲介質異構,也包括架構上的異構設計。 “通用性、計算性能、成本”這三者本身就是矛盾的鐵三角,存算也許能帶來解決問題的新思路。
 其次,存算為不依賴于高級工藝來提升算力和計算效率,提供了新的思路。3D堆疊以及存內計算都可以更好地拉進存儲器與處理器的距離,減少數據通信的頻次和數量。存儲和通信帶寬已是大模型的瓶頸。

軟件逐步成熟后,基于存算一體技術的端側芯片今年已經開始規模化生產和應用了。未來在云側,除了可以為小模型加速之外,解決通信帶寬瓶頸也許可以成為存算一體技術的下一個殺手級應用,我們期待未來兩到三年內能夠達成這一目標。