智東西(公眾號:zhidxcom)
編輯 | 韋世瑋
智東西6月5日消息,近日,在落幕不久的GTIC 2021嵌入式AI創新峰會上,知存科技CEO王紹迪博士以《存算一體AI芯片:AIoT設備的算力新選擇》為題,為大家解讀了存算一體技術如何帶來更加高效的AI計算。
作為存算一體AI芯片賽道的領軍者,知存科技主要研發基于Flash的存算一體芯片。王紹迪談到,現在行業已經進入到了后摩爾時代,尤其當芯片進入到7nm和5nm階段后,研發進度放緩,芯片研發成本急劇增高,每一次迭代單個芯片成本增加1倍。

▲知存科技創始人兼CEO王紹迪
但碎片化的IoT市場對先進工藝芯片的需求并不強烈,反而更青睞低成本、低功耗、易開發的芯片。不過,目前芯片都采用傳統的馮諾伊曼架構,最先進的存儲器仍采用1X工藝,“所以摩爾定律走到這個階段,存儲器的速度很難滿足現在行業的需求。”王紹迪說。
在他看來,現在行業大多都面臨著存儲墻問題,存儲器的數據搬運慢、搬運能耗大,緩存的大小和密度都很難提升。為了解決存儲器瓶頸的問題,許多公司都采用了不同的方案,包括3D Xpoint、近內存計算、近存儲計算和存內計算。
其中,王紹迪認為存算一體是最高效率的AI計算。今年知存科技發布了基于存算一體技術開發的第二代芯片WTM2101,算力相比第一代提高10倍,主要面向智能語音和智能健康領域,AI算力達50Gops,預計今年第四季度實現量產。
以下為王紹迪演講實錄整理:
一、摩爾定律發展放緩,先進工藝芯片研發成本高昂
存算一體是新興的芯片架構,已經研究了很長時間,嵌入式AI也是一個非常新的技術,最近一年內才開始落地。我們先來談談存算一體芯片技術的研發背景。
摩爾定律一直陪伴著我們的成長,在過去10到20年里,硬件設備的芯片每年都以兩倍以上的速度提升,同時芯片的成本也在降低。尤其從2000年到2010年之間,摩爾定律的增長速度都是很快的,符合每18個月算力提升一倍,成本降低一倍的節奏。
但自2010年之后,摩爾定律已經逐漸放緩,我們很難再看到每過一、兩年芯片就實現速度翻倍,成本降低。在2011年之后,每代芯片的更迭只有接近10%的性能提升。
當芯片進入7nm、5nm制程后,芯片的研發進度逐漸放緩,越來越少的玩家在先進工藝上進行研發,包括行業內能夠做先進工藝的代工廠只剩下三星、臺積電兩家,其它很多代工廠逐漸放棄了先進芯片的研究節點。
導致這一現象的原因有幾個。芯片快速發展的最主要是商業驅動,我們投入新的工藝,到新的技術節點上是不是有足夠的商業回報?

假設我們看現在新的技術節點推進到了7nm,研發一個芯片需要3億美元,成本遠遠高于28nm的千萬美元的研發成本;到5nm,研發成本又增加了50%,但是性能提升只有10%至20%,不像過去一代芯片比上一代性能提升100%。
未來3nm的研發成本更高,達到6.5億美元,意味著將有40多億人民幣的研發費用放到一代芯片上。但研發新一代芯片又是否能帶來足夠的利潤來填補整個投入的研發成本?
先進工藝的研發成本越來越高,生產成本也在逐漸提高,5nm的芯片成本比7nm高了一倍。當市場沒有足夠的利潤支撐后,廠商就不會采用先進工藝來生產芯片。
這也意味著,整個市場能夠真正應用先進芯片的廠商越來越少。
與此同時,目前最先進工藝最主要的應用場景是智能手機,除此之外,高性能計算也主要采用先進工藝,其它碎片化市場很難采用先進工藝。
二、單一SoC難滿足AIoT碎片化市場,需建立正向生態
AIoT有很多的爆發機會,如果關注AIoT消費電子領域,可以發現消費電子近幾年有很多新形態產品的出貨量增速非常快,例如智能手表、TWS耳機(市場)在近幾年都有著指數級別的增速,數據公司統計TWS耳機在2020年出貨量有4億多。
但耳機僅僅是AIoT的一個場景,AIoT有成千上萬個場景,是不是每個場景都能爆發出這樣的能量呢?目前來看,智能手環和智能手表的增速很快,智能家居有潛力,AR/VR也有很大機會,Facebook、蘋果、微軟等都押注在這個領域。這些品類在未來會不會成為更大的市場?目前是未知數。但不可否認的是,AIoT有很多的機會。

AIoT有一個特點,它是一個碎片化市場,這就導致了它的碎片化需求特別多,同時需要芯片做到低成本、易開發,低功耗,難度很大。
同時,單一的SoC只能滿足有限個應用場景。導致芯片公司在設計芯片時,需要去考慮芯片到底要覆蓋什么樣的場景,有多大的市場。
不同的AIoT場景需求變化很大,有些場景需要成本極低,有些場景需要功耗極低。但芯片設計無法做到二者兼顧,兼顧過多導致冗余度增高,成本效率都會變差。
AIoT任何一個細分場景都需要一個好的生態,之前兩位嘉賓都講到了從系統和算法層面AIoT生態的建立,包括商湯和大華在生態建立方面也做了非常多貢獻。這個生態要有好用的系統、好用的應用、好用的算法,同時芯片也要好用,成本足夠低,最重要的是開發快。當這些東西都齊備的時候,這個場景的市場就會爆發起來。
例如,智能耳機市場在過去兩三年內處在飛速發展階段,應用和種類越來越多,芯片也越來越便宜。更重要的是,TWS耳機的開發速度很快,一款簡單的TWS耳機從開始研發到做出來,只需要兩個月左右的時間。
如果一個新的場景不具備這三個條件中的任何一個,這個市場就很難高速增長。同時,這三個條件又是互相驅動的,首先要有合適的芯片,芯片可以運行合適的系統,系統需要豐富的應用,這樣產品開發和創新速度都可以大幅度增速,市場可以快速發展,市場發展起來之后再去驅動系統、應用和芯片的迭代升級。
生態需要很多的廠商去參與建立,生態也會帶來收益,很多市場會因為生態建立而爆發。
三、傳統芯片架構面臨存儲墻瓶頸
說回到我們做的事情,當前嵌入式芯片都采用馮諾依曼架構,存算一體是一種不同于馮諾依曼的新架構,過去的7-8年處于快速發展階段。
新計算架構和傳統計算架構有非常大的不同,新計算架構面臨著生態問題,沒有合適的算法和系統,而傳統的馮諾依曼架構從上世紀40年代開始就已被應用,生態已經非常完備。
馮諾依曼架構為了速度越來越快,存儲器分級會越來越多,最簡單的分級有緩存、內存、存儲。在復雜分層中,會有8-9級,越往外的存儲介質密度越大,速度越慢,越往內的存儲密度越小,速度越快。
存儲和內存的工藝尺寸發展落后于邏輯工藝,存儲器件很難縮小,即使是最先進的存儲和內存,依然采用10nm到20nm的工藝,這意味著存儲器的速度很難滿足現在的計算需求。

我們在馮諾依曼架構中做運算時,數據需要在多級存儲之間搬運。內部緩存的速度快,但是容量小,當數據量很大時,數據會跑到外面的存儲器當中,但外面的存儲器速度相對較慢。
當前芯片的計算效率很高,不管采用28nm還是5nm。但是存儲、內存、緩存的延遲和功耗遠高于計算單元,導致存儲墻問題。
從功耗對比圖可以看出來,常用運算的功耗在0.x和x pJ,緩存和內存讀取數據的功耗達到了100pJ和2000pJ。并且讀取功耗隨著存儲器密度增大而增大。
計算中需要的數據量越來越多,數據量的需求每年都呈幾何倍數增長,但是存儲器的速度很難提高。尤其在現在的高算力和大數據的時代,處理器的核越來越多,但是存儲器帶寬提升很少,每個核使用的帶寬越來越小,突破存儲墻瓶頸顯得尤為重要。
四、存算一體架構的優勢,模擬計算更高效
過去十年很多公司為了解決存儲墻瓶頸的問題,采用了以存儲/內存為中心的計算架構。將芯片、內存、存儲兩兩組合拉近,減少數據搬運距離,都可以解決一部分問題。

比如美光和英特爾推出3D Xpoint存儲器,結合存儲和內存,這個存儲器速度比內存稍微慢一些但比硬盤快,密度比內存大但比存儲小,這是一個存儲型的內存(Storage Class Memory)。
另外,像三星、臺灣力晶推出DRAM和邏輯芯片的3D Stacking芯片,可以大幅度提高內存和芯片之間的帶寬。
近存儲計算也是一種方案,在硬盤中增加一個計算芯片,釋放CPU的計算壓力。
存算一體屬于其中最特別的一種方式,相對于其它三種計算方式,存算一體計算方式直接采用存儲器單元做運算,而不是把存儲器和運算芯片的距離拉近,計算更為高效。
存算一體可采用模擬計算,模擬計算近幾年的發展很快,它的一個特點是可以直接用存儲器單元完成運算,可采用不同的存儲器介質,例如SRAM、Flash、RRAM。
模擬計算把向量乘矩陣的運算映射到存儲器當中,直接用存儲器完成向量乘矩陣的運算,整個運算過程中沒有乘法器、加法器以及其他邏輯計算單元參與。
五、3年量產存算一體芯片,用Flash做運算
今年是知存科技創始團隊研發存算一體技術的第九年。早期從2012至2016年,當時存算一體沒有主流的方向,沒有主流架構,創始團隊采取Flash存算一體進行流片嘗試,也是個實驗科學。
2016年,我們完成了第七次流片,也是存算一次芯片的首次驗證。2017年獲得近四千萬的項目投資后,公司成立,專注于存算一體技術開發。
真正把實驗室的技術做到產品級,中間有非常多坎坷的路要走,從2017年底開始做存算一體產業化,到2020年發布第一個存算一體產品,再到今年把第一個存算一體芯片量產,同時推出第二代產品,經歷過十多次芯片的迭代。

過去九年我們嘗試過很多存儲器,包括新型存儲器,最終選擇Flash的原因是——它是現在非常成熟、密度高、運算效率也是最高的存儲器之一。
固態硬盤、USB盤、ROM、嵌入式存儲都使用的是浮柵晶體管。存算一體技術用浮柵晶體管存儲數據又用它完成乘加法運算。浮柵晶體管類似MOS晶體管,可以像用MOS晶體管處理模擬信號一樣完成信號的線性放大和累加。同時浮柵晶體管可以被編程,從而改變其信號放大能力。
基于這種做法,等同于將Flash存儲器的每個存儲單元都變成一個乘加法器,這樣意味著一個2Mbit的小Flash陣列變成了兩百萬個乘加法器,達到百萬級的并行算力。
六、第二代存算一體芯片將于今年Q4量產
我們的第二代芯片WTM2101是基于最先進的eFlash工藝設計,用于嵌入式場景,包括智能語音、智能健康、輕量級視覺等場景。
WTM2101芯片的功耗在幾十微安到十幾毫安,算力最大為50Gops,最大支持1.8M的權重參數,現在基于該芯片移植了很多商用算法,將在今年第四季度量產。
這個芯片可用于VAD喚醒、語音識別、通話降噪、聲紋識別等,可以應用在很多嵌入式領域中,包括健康監測,以及極低功耗(毫安級)的視覺識別。近一年來,我們發現有很多過去不存在的應用場景,說明AIoT創新在加速,市場在增大。

我們的芯片配有深度學習網絡映射工具WITIN Mapper,可以將深度學習算法自動映射到存算一體矩陣當中,然后按順序執行運算。單次執行最多包含40個矩陣,通過多次執行可以運行更大規模的網絡,例如我們已經映射了一個100多層的網絡,每層網絡的運算只需要一個存算一體指令。
今后幾年,我們會和合作伙伴緊密配合,一起推動存算一體的AIoT生態。謝謝大家!
以上是王紹迪演講內容的完整整理。