芯東西(公眾號:aichip001)
編輯 |? GACS

9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在9月15日高能效AI芯片專場上,知存科技業務拓展副總裁詹慕航分享了主題為《大算力需求下存內計算的應用和發展趨勢》的主題演講。

詹慕航分享說,AI神經網絡的核心就是矩陣乘法/乘加運算,越典型的大模型越需要矩陣運算,便越適合存內計算的方式。知存科技順應AI時代的新型需求,創新使用Flash存儲器完成神經網絡的儲存和運算,以解決存儲墻問題。

詹慕航列舉了WTM-2端側存內計算AI芯片,該系列芯片有著極低功耗、極低延遲的優勢特點,其已經量產商用的國際首顆存內計算芯片WTM2101,功耗僅5uA-3mA,同時兼具高算力,適用端側智能物聯網場景。接著,詹慕航預告了針對視頻增強場景的WTM-8系列芯片,該芯片可以將單核算力提升80倍,效率提升10倍。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

以下為詹慕航的演講實錄:

非常感謝主辦方能讓這么多AI芯片行業專家們齊聚一堂,我們很欣慰地看到身邊有這么多戰友。

大家都是在為自主可控的目標,無論是近存計算還是存內計算,或者是Chiplet、3D Bounding,無論是數字、模擬,SRAM(靜態存儲器)、RRAM(阻變存儲器)或者是Flash(快閃存儲器)。大家都是在做同樣一件事情,就是將算力提升、功耗降低、面積減少、延時降低,還有將存儲器的帶寬提高,這也都是我們在接下來可能要共同去努力的方向。

當然不得不提,我們很感謝,知存科技作為存算一體領域里的“排頭兵”得到了行業和資本的認可。我們獲得很多榮譽,近期獲得了國家級專精特新“小巨人”。我很樂意跟大家分享一下我們這個“排頭兵”做了什么、做到什么程度,做一個拋磚引玉。

知存科技公司成立較早,于2017年成立。對于整個存內計算領域,特別是模擬Flash閃存領域,我們行動得較早。創始團隊從2013年開始就著手研究,也有了一些成果。

在做芯片方面,我們選了最艱難的一個模式。2018年,知存科技首顆存算一體的芯片的實驗樣本流片;2020年,小批量生產存算一體加速器WTM1001;2022年,全球首顆基于模擬Flash存算一體的芯片WTM2101正式量產。截至今天,知存科技的出貨已經到了kk級別。我們今年還即將投片和發布一款基于邊側的圖像視頻處理芯片WTM-8系列。

今天和大家分享的內容主要分三大部分。第一,AI計算和內存墻的問題,包括如何從根本上解決內存墻/功耗墻等問題;第二,知存科技存內計算芯片產品及部署;第三,存內計算的發展趨勢。

一、架構革新打破“內存墻”,用28nm做出逼近7nm的算力

無論是在摩爾定律有效的階段,還是現在逐漸失效的階段,有一點是不變的,就是對算力本身的需求。對于除了Tranformer之外的所有AI模型,(算力需求)每兩年有8倍的增量;對于AIGC、生成式AI包括Tranformer模型,(算力需求)有275倍的增量。

算力本身不是偽命題,它只是一個硬幣的一面,另外一面是存儲的帶寬,或者叫吞吐數據的速率。這些年,行業在算力上的發展還可以,但存儲的性能指標有一些滯后,有一個很大的Gap。時常我們在抓取數據、吞吐數據的時候,消耗了大量的時間和功耗,整個能效比大大地拖延。

要解決內存墻/功耗墻的問題,需要認識到先進工藝已經不能有效地解決大算力的需求了,那么我們就從架構上進行革新。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

我們回顧一下高中物理的知識,基于歐姆定律:輸出電壓=電流×電阻,電阻倒數就是電導,Flash是浮柵晶體管,我們通過編程可以微調電導值,亞閾值可以做出很多。

大家在市面上買到的Flash是基于NOR Flash,買到后需要從底層改寫Flash的浮柵晶體管和電導。做完之后,輸出的電流,整體比如是一千行、一千列。它有兩個大的優點:一是密度大,是1000×1000,這是100萬個cell;二是并行度高,因為它是模擬計算。

存內計算是放在AD(數模轉換)之前,就去做這樣的運算,它的并行度非常高。比如讀取一次用戶數據的時候,就可以在同時進行這1000行、1000列、100萬的運算。傳統GPU/CPU要去抓取十幾萬次,我們只需要抓取一次就能做百萬級的并行運算。

整個AI神經網絡或者CNN矩陣運算、卷積運算,核心實際上就是矩陣乘法/乘加運算。越是大模型,越是矩陣運算,越適合存內計算的方式,因為存和算本身在一起,一次性并行完成。

從工藝來看,降低成本是行業共同的目標之一,知存科技的存內計算基于成熟工藝,通過架構的創新,能夠達到兩代以后先進工藝所要達到算力能耗需求。我們在去年量產的WTM2101芯片是基于40nm制程,該芯片在算力和能效比上相當于12nm工藝的6到10倍。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

有人開玩笑說,這是“非馮”和“馮”的一場battle。存內計算最核心的原理是在模擬器件上,因為它是進行本計算,存儲單元本身就是計算單元,所以我們沒有獨立的計算單元,也沒有獨立的存儲單元,這樣就節省了很多數據的吞吐量、搬運的能耗。

二、基于Flash的量產存算一體芯片,逐步覆蓋從端到邊

接下來給大家匯報一下知存科技目前的產品,以及知存科技將來的技術路線圖。

經歷過這么多的事情,一句話總結:我們實現了0到1的突破。輕舟已過萬重山,我們現在已到了量產級別。要把一顆芯片從樣片做到量產,我們有額外的工作要去做。除了之前做很多的設計,我們要去解決可靠性、一致性、良率等諸多問題。

知存科技整個團隊在這幾年的時間里,所有該踩雷的都踩過了。關鍵是知存科技作為一個“排頭兵”,前面沒有可以對標的產品,沒有可以去借鑒的技術。

從整個規格的定義,從Flash架構到MPU核,我們存算架構的設計都是自己摸索出來。我們在前頭拿著手電筒,在無人區探索出來,包括前端的設計模擬、包括數字、前端后端封測,整個團隊付出很大努力。幸虧有驚無險,我們走過來了,并擁有了目前業界唯一可以基于Flash的存算一體架構量產芯片

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

對于生態的建設,知存科技志存高遠。我們有專事工具鏈的團隊,不光是做一顆好的芯片,我們要推給客戶的是一顆好用的芯片。在算法的移植上和客戶對于芯片的使用上,我們對于工具鏈早早地同步進行投入。

介紹一下我們的WTM2101芯片,它用于端側,算力小于1Tops,精度在INT8以下,參數量為1.8MB,當然我們的算力不停地會有迭代和演進

在WTM2101芯片上,模型參數的大小已經遠遠超過市場的需求,其擁有的50Gops算力在很多場景跑不滿,也放不滿1.8MB的模型和參數。對于模擬精度的控制,我們有稀疏和致密的方法,在WTM2101上我們可以做到8-bit。WTM-8系列芯片有12-bit的精度,參數量也是從幾十MB到幾十G不等,取決于客戶的應用場景和客戶的模型大小。

給大家看一些實例,這是量產產品真正的實測數據。用算法復雜度間接地折算,來表現WTM2101的算力,可以看到在降噪以及命令詞的識別場景下,相較于市場現有方案,WTM2101在AI算力上有數十倍到百倍的提升;與此同時,功耗降低數十倍到微安級別。知存科技的算法復雜度很大,1000MB左右,市場現有方案能存放的算法復雜度卻很小。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

WTM2101的應用產品包括智能手表等,當客戶把知存科技的芯片放到手表里,發現有以下兩件事情:

1)健康算法。無論你做PPG、ECG、心跳心率,還是姿態的監控,比如一個抬腕的健康類的算法,在用了我們的芯片以后24小時里的誤識別率竟然達到了0。因為要去做AI Training,我們給它喂大量數據、大量時間的Training訓練之后,在這個芯片真正應用的時候,它能夠很精確地判斷出來。

2)功耗小且Always on。由于我們的方案節省功耗,所以續航很好,如果你的手表以前需要4天充一次電,我們直接會延長續航時間2-3天。如果算力有10倍的提升,功耗又有10倍降低的時候,整個能效是2個數量級的提升,我們的方案是非常驚艷的一個產品。

WTM2101覆蓋的產品目前主要有語音識別和人聲增強、健康算法等方面。

具體來說,語音的識別包括人聲增強。WTM2101的應用場景有對講機、助聽器、TWS耳機。另外在降噪上,我們有大量Training訓練數據,包括做一些加噪的訓練、做量化。我們在提取、識別噪音的時候是非線性的,所以它可以精確且快速地識別出各種人聲之外的背景噪音,并有效地把它消除掉,包括回聲消除。健康算法這個技術的應用場景除了手表,還包括醫療行業的產品形態。

對于端側而言,WTM2101是一顆大算力且有效的處理器芯片。

我們的合作伙伴包括一款叫CW01的兒童手表的ODM(原始設計制造商)。合作產品還有INMO Air2眼鏡,我們提供命令詞識別,戴著眼鏡的時候精準、快速地識別語音指令。另外還有上一周剛剛發布的魅藍K歌耳機,大家可以搜一下這款耳機,299元,可以K歌,有耳返的功能,這是一個物有所值、非常好玩的產品。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

接下來是一顆支持大算力和端側大模型的視覺類芯片——WTM-8系列芯片,大家可以把它理解成類似于R1這顆芯片。它在端側可以打破很多使用場景,因為它在散熱上沒有憂慮,對功耗的控制非常好。從視頻方面來說,渲染用傳統GPU做也還不錯,但超過三維重構、插幀、超分都是更適合用神經網絡技術。

WTM-8系列芯片的高性能成像功能類似于實現AI ISP功能,產品可以將功耗大幅地降低,對于有散熱要求的情況就會非常友好。對于分辨率,產品從4K一直可以支持到8K分辨率,幀率可以支持60、90、120。對于視頻顯示,在幀率比如插幀方面,知存科技可以從30幀插到60、60插到90、90插到120。對于超分,比如710,我可以超到1080p、2K、4K,包括做一些AI的ME、MC等運動補償前處理,以及后處理的去噪、寬動態HDR等。

打個比方,當你拿手機拍照,出來是很清晰的照片。但當你去錄像,截屏經常比較糊。如果有我們這顆芯片加持,大家在錄像的時候,它已經進行了AI插幀和AI超分,你截取的照片就會非常清晰。

我們目前在和一些行業頭部客戶做深度合作的預演,對于將來產品形態,特別是有關視頻視覺,有更加長遠的預演。

三、大模型、智能駕駛,將是存算一體芯片的新戰場

未來在AI芯片或者存算會是什么樣的場景?這幾天談得非常多的是大語言模型,大模型出現神經網絡屬性及矩陣運算的形態,我們相信,一定是非常適合存算一體或者存內計算這樣底層架構的創新。相比馮·諾依曼來說,它是非常適合。我們目前的狀態是在做研究。

還有一些更加智慧的產品形態。大家可能在餐館里見到一些送餐機器人,這是比較初級的機器人;更加智能的機器人,你點了菜之后,它可能幫你進行后端的處理。以上都依賴于在高效大算力芯片的支持,這在不久的將來這都可以實現。

還有一些類似于高級駕駛輔助系統ADAS等應用,我們也在積極跟進,而且也相信這很快會成為AI芯片、存算一體芯片的一個主戰場

最后我想說,很高興看到越來越多的戰友和伙伴加入到AI芯片領域,再到我們存算一體的家庭里,我們希望把整個市場的蛋糕越做越大,大家都能夠做自主可控、自力更生的事情,謝謝大家!

以上是詹慕航演講內容的完整整理