智東西(公眾號:zhidxcom)
文 | 心緣
架構創新正成為新風口,而新興勢力在其中扮演著至關重要的角色。
傳統芯片遵循馮·諾依曼架構,處理器和存儲相互分離,在承擔AI推理運算時,數據要在硬盤、主存、計算單元之間搬來搬去,90%以上的能量損耗于這一過程中。
為了突破傳統架構對算力的掣肘,存算一體這種新興邏輯架構應運而生。其常見實現方式有兩種,一是在內存和固態硬盤芯片中植入計算單元,另一種則是在直接用存儲單元完成計算任務。
2016年,一對北大微電子系85后夫妻,在留美期間積累了基于NOR Flash的存算一體AI芯片研發經驗,并早早定下回國創業的想法。
就在今年8月6日,他們所創辦的知存科技宣布了近億元A輪融資。

▲知存科技創始人兼CEO王紹迪展示知存科技的存算一體AI芯片
近日,智東西同知存科技創始人兼CEO王紹迪聊了聊創業背后的故事,從創業想法萌芽階段的無人問津,到創業5個月完成流片,再到即將迎來第一批產品的落地,他們正在離三年內賣出5000萬顆芯片的“中期目標”越來越近。
一、從游戲中孵出的芯片情結
23年前,王紹迪8歲,父母為他買了一臺搭載英特爾奔騰一代CPU的586電腦。那時候一臺586電腦售價八千多元,花費了他父母將近一年的工資。
奔騰(Pentium)這個跨時代的產品,不僅開辟了英特爾一統CPU市場的盛世王朝,也在王紹迪心中埋下做芯片的種子。
小學期間的王紹迪,主要還是用電腦來玩游戲。在這一過程中,他直觀感受到摩爾定律帶來的變化,計算機變革飛速,CPU速度、光驅速度、軟盤速度、硬盤內存大小等都日新月異。
很快,586電腦已經跟不上游戲速度,家里的電腦配置逐漸升級,每隔兩三年換一代。2000年左右,為了玩雷神之錘等3D效果好的游戲,王紹迪開始接觸GPU。漸漸地,王紹迪開始對芯片非常著迷。
經過高中物理競賽,高三上半學期,王紹迪被保送北大。在接受當地遼沈晚報采訪時,他即堅定地表達了自己的愛好和志向,希望進修微電子專業,成為“中國芯”的研發人員之一。
![]()
▲遼沈晚報專訪王紹迪(圖右)
二、結緣存算一體,師從學術大牛
知存科技關于存算一體芯片技術的根基,來源于王紹迪的妻子郭昕婕,她是第一批從事存算一體AI芯片研究的博士生。
盡管王紹迪和郭昕婕都是2011屆信息科學技術學院微電子專業的應屆生,但由于北大教學很重視基礎,前兩年上的都是理論課那種大課,兩人直到大三才相識。
到大四申請出國留學時,兩人關于學校的一個重要篩選標準就三個字——離得近。
一般同學申請十幾所學校,他們則一連申請三十多個學校,還特意按著美國地圖看,就是為了能申請到同一個或者離得近的學校。最終,王紹迪申請到的加州大學洛杉磯分校(UCLA),和郭昕婕申請到的加州大學圣塔芭芭拉分校(UCSB),相隔不過100英里。

說起來,郭昕婕此后研究存算一體芯片所跟隨的導師,還是王紹迪在拿到幾個offer后,幫她向導師寫信申請的。
郭昕婕的導師Dmitri B.Strukov教授是做存算一體的學術大牛。
2008年,惠普實驗室(HP Labs)證實了37年前的科學預言,發現世界上第四種基本電路元件——憶阻器(memristor),并成功實現了世界首個能工作的憶阻器原型,這項研究在《Nature》上發表《尋獲下落不明的憶阻器》,而Dmitri B.Strukov正是這一團隊的核心成員之一。此后,憶阻器、存算一體這些研究陸續如火如荼地開展。

▲HP Labs憶阻器團隊,從左到右分別是Dmitri Strukov, Stan Willams, Duncan Stewart, Greg Snider
2011年,即畢業那年,王紹迪和郭昕婕提交申請,同樣在這一年,Dmitri B.Strukov準備申請存算一體項目,次年郭昕婕就成為了第一批被招收的學生,被分到基于NOR Flash的存算一體芯片技術方向。
Dmitri B.Strukov告訴她,這個方向是最接近產業化的、實用的方向,Flash技術成熟,已經商用幾十年,成本很低,但其缺點同樣是因為Flash研究起步較早,不好在頂刊上發文章。
立項初期,深度學習還不火,郭昕婕主要將存算一體芯片應用在視頻處理矩陣乘法,到2013年,深度學習的熱度席卷學術界,發現存算一體芯片運算深度學習效果好后,在導師的支持下,郭昕婕直接轉方向到做深度學習芯片。
歷經6次流片,耗時4年,郭昕婕終于在2016年研發出全球第一個3層神經網絡的浮柵存算一體深度學習芯片技術,并完成技術驗證。一年后,她又再度攻下7層神經網絡的浮柵存算一體深度學習芯片。

▲郭昕婕在IEEE電子器件大會(IEDM 2017)上發表的論文
存算一體以存儲器和模擬單元為主,Flash存儲陣列經優化改造后,既可以容納更多神經網絡的權重參數,又可以完成和此權重相關的模擬計算。據王紹迪介紹,理論上,單個Flash單元可完成8bit乘加法運算,假設有200M個Flash單元,就能存儲2億個參數,同時能并行完成2億次乘加法運算。實際運行時,算力約為峰值的10%-50%,由于芯片具備一定通用性,并非完全針對某一算法定制,AI算法在芯片無法達到100%的利用率。
在王紹迪看來,存算一體芯片的核心優勢有三點。
其一,存儲單元可用于計算,運算中無需數據搬運,運算單元數量可提升多個數量級。
其二,無需獨立計算單元,這樣既節省了片上并行計算單元的面積消耗,同時不用過于追求最先進的芯片加工工藝,而是可以使用成熟工藝來降低成本。
其三,架構中無需考慮內存搬運,大幅降低多核AI芯片的設計難度。
三、投石無路,艱難的創業起步
從郭昕婕的研究中,王紹迪看到了端側AI芯片商用落地的價值,回國創業的想法在心中萌芽。然而創業的熱情燃燒正旺,突然就被現實的冷水澆熄,他在說服別人投資的路上屢屢碰壁。
2016年年中,王紹迪在中美兩處尋找投資人。
彼時美國主流觀點認為端側不需要AI,只有服務器端深度學習做訓練的需求才較大。王紹迪因在三星和Arm實習,便嘗試聯系這兩家公司做存儲器的相關負責人,但他們認為王紹迪提出的方案找不到應用場景。
在美國沒得到正面反饋,王紹迪托人回國詢問卻也無果。
當時他看中的市場是缺乏高效端側算力的AR市場,而這一時期,國內的AR剛走過高速發展的黃金時期,市場開始疲軟下滑,王紹迪也沒能建立什么有效的聯系。
時機沒到,就再等等,王紹迪留在美國繼續從事博士后研究工作,很快,希望再次來臨。
2016年9月,英特爾宣布收購視覺處理芯片創企Movidius,直接填補其在物聯網領域的技術短板。伴隨著這一收購案的推進,終端側AI芯片逐漸興起。從2017年年中開始,王紹迪每個月回國一次找融資,另外一位合伙人也一直在國內幫著找各投資機構去聊。因為存算一體芯片仍然非常小眾,找融資的歷程進行的十分艱難。
終于,在一位北航教授的幫忙聯系下,啟迪之星、兆易創新的投資人在和王紹迪聊過后伸出了橄欖枝,說可以投資。
得到這一口頭承諾,王紹迪立刻飛往美國打包行李,把車一賣,提前談好做存算一體芯片所需的知識產權授權,不到一個月就返回祖國,于2017年10月在北京創辦知存科技,王紹迪任CEO,郭昕婕任CTO。
四、創業初期的摸索
成立初期的知存科技可謂是一窮二白,融資難、缺人才、沒經驗。
考慮到攜帶資料日后可能有風險,王紹迪和妻子郭昕婕回國時基本上都兩手空空。
一開始,知存科技只有王紹迪、郭昕婕和他們的合伙人三個人,租了一個四人的小辦公室,還多出一個工位。
三個人都是學術圈出身,余下的那個工位自然是要留給一個有做模擬芯片經驗的專業人士,后來他們花了很大精力才請來一位具有15年模擬芯片研發經驗的老兵作為知存科技如今的模擬芯片研發負責人。
于是,到2018年春節,知存的小團隊成功漲到4個人。

創業期間的節奏比學術研究期間快得多,企業規劃、運營管理和產業經驗都要經持續學習和積累。從創業至今,王紹迪每周上班時間超過100小時,有一周甚至只睡了不足28小時。
因為在學術研究期間,郭昕婕幾乎踩過各種芯片設計的坑,這也使得知存在成立后的短短5個月內就快速流片。
2018年初,知存的擴張速度堪比“龜速”,3月5個人,4月6個人,5月7個人,流片前才終于突破個位數,達到10個人。熬過缺乏資金的創業初期,團隊擴張速度逐步加快。
當前知存已經凝聚了一支經驗和能力兼備的55人團隊,其中,模擬芯片設計團隊人數也增至近11人,團隊平均工作經驗達9年。此外,王紹迪還表示,今年知存科技還將再招5人左右。
融資方面,知存科技已于2018年1月獲得啟迪之星等投資的天使輪融資,同年12月獲訊飛領投的天使+輪融資,今年8月獲得近億元A輪融資,由中芯聚源領投,普華資本、招商局創投、三峽鑫泰、科訊創投、燕緣雄芯跟投。
專利方面,知存科技申請了40多項專利,并購買了郭昕婕早期在國外研發期間所發明的專利授權。

知存的核心產品MemCore001是基于NOR Flash存算一體架構的嵌入式智能語音芯片,主要應用于低功耗、低成本的端側語音識別,支持8-bit DNN、LSTM、TDNN等多種常用網絡,支持可變運算和參數精度。
據王紹迪介紹,算力依據應用需求而定,市面上的芯片算力從1Mops到100Gops都有。知存即將發布3款存算一體芯片產品,功耗和成本和市面上10Mops的芯片相當,算力為10Gops。
相比當下基于馮·諾依曼架構的AI芯片,知存科技的存算一體芯片能將運算效率提升20-50倍,現有運算效率達15TOPS/W,成本也比常規AI芯片降低30-90%,針對不同應用的成本在幾十美分到幾美元。
五、泡沫化很正常,落地難只是暫時現象
隨著AI需求的演進,知存會對芯片內部相應優化,通過調整設計架構,使其更好地支持現有網絡支持,可配置性更多,對新型網絡效率更高,整體芯片面積也變得更小。
存算一體畢竟是一個創新芯片架構,缺乏成熟的EDA工具、測試工具和應用層適配軟件,量產步驟還夠不成熟。不同于傳統芯片直接將量產步驟交由晶圓廠來完成,存算一體芯片的量產步驟需要芯片設計公司和晶圓廠一起來探索和建立。
在語音芯片落地后,未來,知存還計劃研發低成本、低功耗的視覺處理芯片。
而王紹迪他們之所以暫不考慮云端,是因為軟件SDK開發的投入太大,這對一家初創公司來說將是很大負擔。Flash存在讀寫偏慢的缺點,如果以后有更出色且成熟的存儲器,他們也會考慮用其替代Flash。
對于AI產業熱議的泡沫化以及AI芯片落地難、量產難等問題,王紹迪也分享了他的觀察和思考。
他認為,像大多數快速發展的行業一樣,AI也有泡沫,但這并非因為AI沒有價值,而是因為還沒找到好的商業模式,當前的授權等商業模式利潤不高。
在他看來,AI芯片落地難只是暫時的,AI芯片的作用是幫助AI更好的落地。從過去的發展來看,提供更高的算力可以幫助更多的算法落地到應用,降低成本和功耗可以幫助AI拓展更多的應用場景。因此做算力更大的AI芯片和更低成本的AI芯片都可以幫助AI落地。當前AI芯片落地難因為AI應用還不是一個成熟的市場,沒有成熟的產品形態。AI芯片和AI一樣都在摸索中發展,逐漸落地更多的應用。
而關于AI芯片量產難的問題,王紹迪認為有多個原因。
一是AI產品新,產品需求和功能一直在變化,沒有成熟的產品形態。很多芯片做了很長時間design in,遇到產品需求突然變化,造成了芯片無法量產。這也是因為AI產品和算法更新換代快所導致的,選錯了應用或者功能設計錯了的芯片沒法量產。
二是某些大算力AI芯片需要很好的算法適用性,研發周期長投入大從業人才少。
三是新型架構的AI芯片,像是存算一體芯片,沒有成熟的方案可以采用,需要開發新的量產方案。
結語
相比那些在芯片行業摸爬滾打多年的老兵,王紹迪等從學術圈走出的創業者們相對缺乏創業經驗和工程經驗。尤其是在開辟一條蹊徑之時,可能需經過各種試錯、磨合、迷茫和思路轉換。
但同時,他們也擁有更加蓬勃的朝氣,堅定而無畏地追求創新,勇于冒險,敢于跳進造芯的洪流之中,注入一抹不一樣的色彩。
誠然,云端市場巨頭環伺,終端市場亦是強手如林,留給創企的機會有,真正做到突圍也很難。AI芯片產業的規律還需經歷漫長的考驗,而更多帶著各類創業者的涌入,勢必會為整個產業創造更多的可能性。
在政府、投資方、孵化器等機構的幫助下,也許下一個破局者已經在成長之中。