芯東西(公眾號:aichip001)
編輯 | 高歌

智東西6月4日消息,近日GTIC 2021嵌入式AI創新峰會在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格產業峰會上,來自產業鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態創新、家居AIoT、移動機器人和工業制造產業4大版塊地圖,帶來了深入淺出的分享。

會上,安謀中國AI技術高級市場經理吳彤以《構建AI智能生態》為題,對當前AI芯片發展趨勢以及安謀自研人工智能專用處理器IP“周易”AIPU進行解讀。

如今行業已進入以數據為驅動的計算時代,也稱為第五波計算浪潮,從網絡架構到計算架構都產生了大量需求。依托Arm世界領先的生態系統資源與技術優勢,安謀中國面向國內市場獨立研發了周易”AIPU

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢▲安謀中國AI技術高級市場經理吳彤

吳彤談到當下AI芯片市場有四大發展趨勢,一是端側芯片市場增速非常高,二是未來5-10年端側推理市場的增速最快,三是ASIC定制化芯片將成為未來的主流,四是細分市場規模將會保持高速增長。

另一方面,AI芯片行業專用架構(DSA)正在興起,主流AI算法也呈現輕量化趨勢。在這些趨勢下,安謀中國自研的“周易”AIPU擁有完全自主可控、完整生態等特點,目前已經推出兩代產品,分別為“周易”Z1和“周易”Z2。

其中,“周易”Z1是邊緣計算通用的AI IP,面向IoT&Edge,基于“周易”Z1研發的全志R329智能語音芯片即將大規模商用;“周易”Z2面向邊緣計算中高性能場景,基于“周易”Z2開發的芯片也即將應用落地,主要覆蓋中高端安防和自動駕駛/智能座艙領域。

此外,吳彤還介紹了兩款AI IP的應用案例,包括人體關鍵點檢測、駕駛員疲勞監測(DMS) 和DTV超級分辨率應用等。

以下是吳彤的演講實錄整理:

一、第五波計算浪潮或助推Arm芯片出貨超萬億

吳彤:首先感謝主辦方智東西的邀請,我是安謀中國AI技術市場吳彤。今天給大家帶來的分享主題《構建AI智能“芯”生態》。我的主題分享分為三部分,第一部分是介紹整個Arm架構的賦能情況,第二部分是一個對AI芯片以及AIoT市場簡單的分析,最后一部分是我們整個安謀中國自研的AI IP“周易”兩代產品的市場、技術情況。

首先,有一個概念叫做第五波計算浪潮,大家都知道在以前最開始的時候,我們有PC、個人計算、互聯網和移動互聯網,可以稱之為前四波計算浪潮。什么叫第五波計算浪潮?一句話總結,一個以數據為驅動的計算時代。第五波計算浪潮主要特點除了芯片層面多樣化的需求以外,從網絡架構,包括從計算架構都有大量的需求產生。作為Arm的一家生態型公司,我們一直在思考怎么樣在這個體系下通過和我們合作伙伴提供更多定制化的服務,包括架構以及芯片類的創新,能夠賦能整個生態。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這是我們整個Arm的一個從1991年一直到現在Arm計算架構走向萬億級生態的圖。大家可以看到,從1991年一直到2017年用了26年的時間,(Arm)達到了全球第一個一千億芯片的出貨量。從2017年到2021年,其實我們只用了四年時間就達到了第二個一千億芯片的出貨量,這個增長非常快。(在)第五代計算浪潮的驅動下,我們希望未來能達到一萬億芯片的出貨量。

安謀中國從成立之初到現在,幾年內,安謀中國在國內服務的客戶超過兩百家以上,在國內的(芯片)出貨量將近兩百億。

二、端側AI芯片增速快,領域專用架構興起

下面給大家分享一下AI芯片以及整個AIoT市場整體的情況。這里有四張圖從AI芯片的市場規模、按場景、按架構、按應用層面對AI芯片的整體介紹。

1、AI芯片發展趨勢:端側增速最快

首先第一張圖是整個AI人工智能芯片的市場規模,2017年到2025年接近十年的區間,有一個趨勢可以看到,從紅色數值可以看出,和云端相比,端側AI芯片的市場增速非常高,尤其在未來的5—10年的區間之內。

第二張圖是AI芯片按場景來劃分的趨勢,這個場景分成四塊,兩大部分。第一個維度是整個的云端,包括云端推理和云端訓練。第二維度Edge端側,包括推理和訓練。這張圖得出一個結論,在未來5—10年內,我們可以看到,在整個端側包括云端還有Edge端推理市場的增速是最快的。

第三個圖是AI芯片按架構劃分,能夠看到人工智能芯片所有看到的主流架構,包括GPU、FPGA、包括ASIC等等。從中也可以看到,ASIC定制類的芯片也會在未來的五到十年內成為市場上的一個主流。

最后一張圖,是按照人工智能的細分垂直領域場景來看,這里面我們看到,手機端不用說了,也是Arm比較主流的一個行業,手機端依然保持相對比較高速的增長。同時像可穿戴設備、包括智能音箱幾個細分市場未來幾年之內也會保持比較高的增長。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

2、AI芯片領域專用架構(DSA)開始流行

這個是從垂直市場的層面來講,我們談到,整個人工智能芯片有一個比較重要的概念叫DSA。談到之前,我們先看一個很有意思的試驗,這個試驗是一個算法,這個算法主要以矩陣乘法為主。

我們可以看到,增速很快的這條曲線在不同的硬件環境包括軟件環境下做的實驗。從最開始在Python環境,第二個是在純C的環境下做,再往后我們加入了很多并行計算包括memory優化、包括目前主流的SIMD助理,在不同的體系架構下,同一套算法從最原始的Python到最后的SIMD形式(的執行效率)增長63000多倍。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這個試驗說明什么問題?在我們現在AI芯片領域里面,其實DSA也就是專用架構可以處理特定領域的一些問題,目前甚至將來應該會成為一個主流。這種DSA我給大家舉一個例子,就是什么樣的(架構)屬于DSA呢?比較知名的像是NVIDIA GPU、包括很多網絡處理器芯片、包括現在我們比較熱門的NPU神經網絡處理器都可以理解為一種處理某些特定領域問題的架構,我們都(可以)叫DSA

這是我們看到的目前、包括未來有可能AI芯片架構整體技術演進的趨勢。從最上面的GPU,以英偉達和AMD為代表,GPU本身做圖形處理,最開始不是給AI人工智能來用,英偉達為代表的這些公司在GPU里面做了大量改進,加入HWAHard·Wired·Accelerator),也就是我們叫TensorCore,把它(GPU)變成面向人工智能領域很好的處理器芯片。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

還有一類也是傳統做信號處理的DSP,現在也有很多公司把它變成人工智能芯片,在DSP基礎上加入大量的MAC陣列。比如英特爾收購的一家公司較Habana他們的架構也是基于這個架構設計的。

另有一類,以ARM為代表的異構計算,加了CPU,同時也有DSA的專用領域,加入專業面向矩陣加速的HWA加速器,構成了一種異構計算模式。這種模式我們認為,在目前包括未來將會成為主流,它可以同時滿足很好的PPA(Power Perform Area),包括各種能效比都會達到很高的數值。

3、6大維度評判AI芯片

這里是我們根據很多客戶的需求,我們大概總結了一下,當很多公司都在談一款好的AI芯片,不管你自己設計還是用各種成熟的IP也好,什么樣的芯片才能稱之為好的AI芯片?我大概分了六個維度。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

一顆好的AI芯片經過各種國際主流的benchmark評測,包括像MLPerf;像人工智能聯盟的benchmark,也是在國內很知名的benchmark;還有等等。這個是衡量AI芯片算法模型很主流的評測標準。

還有一個,我們不光從硬件,我們還要從整個生態鏈、軟件棧,也就是我們經常說的工具鏈(來看)。從工具鏈層面,很多公司尤其像我們設計了很完整的工具鏈體系。工具鏈的完整是衡量你AI芯片是否成熟的一個標準,同時也是看到你能夠給客戶提供什么樣的這種支持。

還有一個很多媒體都在談的,AI芯片一定要談算力TOPS。其實TOPS不是唯一衡量AI芯片算力的標準,還有很多其它因素,比如有TOPS/瓦能效比,跟微觀、功耗包括算力利用率都是有關的。還有很重要的因素,就是存儲帶寬。剛剛知存科技的王總也提到了,為什么我們現在存算一體芯片非常熱門,就是它能夠解決數據搬移的問題。

當然了,還有幾個維度關于AI芯片這塊。

首先AI芯片要有很好的靈活性,因為我們的算力不是固定的東西,需要支持常見的神經網絡,同時有很強的擴展能力,比如客戶能力很強,會自定義自己的算子,作為IP或者芯片供應商來說,我們需要能夠支持客戶做自定義算子的擴展。

當然了,還有除了AI層面的其它因素,我把它列了叫非AI功能。我們接觸了很多客戶后發現,客戶對我們的需求不僅僅只在AI一個層面。比如對于安防場景來說,安防客戶不僅僅需要你只提供一個AI芯片,希望你提供更多的Solution解決方案,比如需要ISP、VPU、視頻處理等等。

其實很多非AI功能如果你能把它變成一個總體解決方案,在未來很多垂直領域是非常有競爭力的。目前安謀中國也在打造這樣比較完整的IP組合平臺。

4、AI算法正趨于輕量化

這是一個對AIoT芯片市場的分析。簡單說,整個AIoT芯片剛才幾位嘉賓也講過,AIoT整個市場其實比較碎片化,目前看它的增速非常快,端側的芯片增速也非常快。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

但是首先它有很多這種需求,比如對低功耗要求非常高,在很多低功耗的場景,甚至達到毫瓦級的水平,比如可穿戴設備等。同時,對于很多場景來講,可能算力要求沒有特別高,尤其對于AIoT領域,在100 GOPS下就可以覆蓋大部分場景。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這個是我們看到的整個AI算法市場的一個輕量化趨勢。左邊這張圖來說,2014年開始市面上主流的輕量化算法,對算力需求越來越低。我們看到,很多主流的算法輕量化趨勢非常明顯,它的計算量包括權重跟之前相比已經減少了幾十倍左右。舉個例子,我們做多目標檢測的時候,如果想做30FPS Throughput(吞吐量),只需要大概百GOPS算力就可以了,每幀計算量可以降低到5GOPS以內。

此外,算法輕量化的趨勢商湯的閆總也提到了,我們有大量模型輕量化的手段,都是一些很主流的量化、剪枝、共享、知識蒸餾等等。那么這種模型量化的手段是日益的在演進,也就把我們算法輕量化的趨勢推的越來越明顯。

三、“周易”AIPU:兩代產品覆蓋全場景、全棧平臺

前面分享了Arm架構和AI芯片和AIoT芯片的趨勢。后面重點講一下安謀中國“周易”AIPU的一個整體情況。“周易”AIPU是安謀中國自研IP產品線中AI人工智能部分,我們還有CPU、ISP其他等等的產品線。

這是我們目前,“周易”也是AIPU產品線上看到的市場上幾個比較熱門的機會。第一個是比較熱的安防,我們目前有客戶和合作伙伴已經在基于我們的AIPU定制自己安防前端的芯片,應該很快產品就會出來。手機是ARM在手機端生態里面比較優勢的一塊,未來作為安謀中國自研“周易”AIPU將來關注的市場。

還有另外一個市場就是自動駕駛和智能座艙。如果大家去看各種峰會、媒體(報道),智能汽車已經成為目前最熱的一個詞,而不是之一。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

從安謀中國來講,我們對自動駕駛以及智能座艙領域非常關注。首先,Arm能夠提供的IP組合通過級聯等,做到幾百體T(TOPS)以上的算力,同時我們可以提供的不僅僅是AI,而是包括AI完整的一套面向智能汽車完整的解決方案,(這)也是未來我們希望著力去發展的領域之一。而且目前我們有比較知名的合作伙伴,也會在今年或者明年推出基于我們AIPU的座艙類產品。

其他幾種,像智能家居、機器人、新零售,目前智能家居已經有落地的芯片,今年年內有智能音箱的產品出來,也是一家TOP的公司。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

1、“周易”AIPU四大特點:本土研發、生態完整、架構創新、滿足高PPA指標

安謀中國的“周易”AIPU有四個特點,這是我們硬件一個比較簡單的框架圖:

1)首先“周易”AIPU由中國本土團隊研發,所有的知識產權完全自主可控,目前“周易”AIPU在幾個比較重點的領域安防、汽車、智能語音領域開始即將大規模商用;

2)同時,我們會給客戶、合作伙伴提供完整的技術生態,它是一個硬件加上完整的工具鏈以及適配整個硬件算法的體系;

3)從架構層面,自研一套專門面向深度學習的指令集架構,也是安謀中國技術團隊自主研發;

4)從PPA的三個指標來講,通過我們的實際測試和客戶的反饋,可以達到很好的匹配。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這是我們整個“周易”架構相對比較詳細的介紹。從技術層面,指令集層面分成三類,第一類指令集叫做張量指令集,也就是我們經常常見的向量Vector,能夠對一般的神經網絡進行運算和處理。

第二類我們把它叫做AI Fix Function,這一類有點類似硬件加速單元,它是針對卷積操作里面很常見的一些操作來做特定的硬件加速,能夠提供很好的效率,比如像卷積、池化、激活等等。

最后一類屬于算力需求比較低的我們叫標量,主要做一些循環跳轉類的處理,有點類似CPU模式。“周易”從架構級層面來說,三種不同的處理混合在一起,能夠滿足客戶從算力很低到算力很高不同的需求。同時,Arm還有一個知名度比較高的Trustzone可安全擴展,本身在“周易”里面也集成了我們的安全保護,可以有效保護用戶信息,比如算法的數據等。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

最后一點,也是比較關鍵的一點,我們跟很多客戶接觸中發現,很多客戶如果選用比較成熟的IP做自己的SoC的時候,有很多客戶的算法能力非常強,需要有算子自定義的需求。根據我們的調研,大概50%以上的客戶有算子自定義的需求、本身我們的“周易”AIPU就有很好的支持客戶算子的自定義擴展。

本身AIPU關鍵的一點就是靈活可編程。在設計一款芯片的時候,其生命周期在5年左右。在這5年的區間里,算法本身的迭代是非常快的。在設計芯片之初,就要考慮有很完整的算子支持,甚至IP的變化是完全可編程的,這才能滿足算法的不同需求。本身我們的IP也是朝這個方向去做。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

“周易”AIPU可以提供一個比較完整的可擴展能力。因為“周易”本身是比較通用的AIPU平臺,可以提供從最小0.2T算力甚至上百T算力的組合。這里面對很多比如常見神經網絡層,包括算子可以完全實現可編程,通過TEC張量來做的。

針對特定的卷積類操作,比如池化、激活、權重、特征圖壓縮等,我們通過一個特定的AI指令集也就是AI Fix Function來做,同時支持客戶的擴展。

從工具鏈層面,我們會給客戶提供完整易用的SDK。舉個例子來說,我們有命令行甚至圖形的方式讓客戶能夠快速一鍵生成我們的模型,比如你有一個TensorFlow或者Caffe的模型,通過命令行輸入,直接通過SDK一鍵轉化,很快生成AIPU可執行的文件,整個操作非常方便。同時,從模型框架方面,目前支持現在市面上比較主流的一些模型,包括TensorFlow、Python、TensorFlowLite等。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這是我們的總結,面向人工智能領域端、邊、云三大類,“周易”基本可以覆蓋全場景人工智能解決方案,從端側、邊緣側、云端做一個總結。端側有門鎖、可穿戴設備,像TWS、智能音箱、包括手機智能終端等每年市場的規模,包括需要的算力需求以及它的功耗,我大概做了一個整體的分析。

從這里面,我們可以得出一個結論,目前市場主流的解決方案基本還是以GPU包括DSP為主,但是未來的趨勢,也就是最佳的解決方案,面向所有的場景來說,ASIC定制化的芯片將成為主要的解決方案。對于“周易”AI IP來講,兩代產品包括今年年末發的第三代產品基本上可以覆蓋從端側到邊緣側所有的人工智能場景。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

人工智能芯片除了硬件層面,整個軟件棧就是我們的生態是非常重要的,這是目前“周易”全棧式異構平臺的軟件棧。最底層對Arm整體Cortex CPU、Mali GPU以及我們自研的AIPU硬件體系的支持;到上層很多計算庫,包括合作伙伴完整的driver以及run time庫,像Arm NN、Tengine的支持;到最上面像TensorFlow、Caffe、PyTorch等等支持,“周易”覆蓋了整個軟件站各個層面的支持。

從工具鏈層面,我們目前針對一顆芯片來說,所有的工具鏈全部都是支持的,包括Simulator、Debugger、Profiler、Compiler還有Build Tool,也是構建整個完整生態非常重要的一個環節。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這里面是我們剛剛講的,“周易”是通用的AIPU平臺,如果通用的話,我們一定要談到對目前市場上主流的深度學習算子支持,內置的Model Zoo預訓練模型的支持,涵蓋了目前市面上可以看到的主流算法,比較熱門的transformer等等。

在算子層面,“周易”的第二代產品支持超過120個以上的主流算子,而且還在持續的增加過程中。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

在安防、自動駕駛很多場景里面,客戶需要完整的解決方案,針對客戶需求我們打造了面向CV視覺領域完整的IP解決方案。這里面不僅僅包括AI,包括ISP、CPU,通過互聯的方式組成完整的生態鏈。

Arm的M和A系列是完全支持的,ISP也有Arm中國自研的玲瓏,(該產品)前段時間剛剛發布,ISP和“周易”、Video Encoder等一起,可以為客戶提供一個完成比較完整的視覺IP解決方案。

2、“周易”Z1:邊緣計算通用的AI IP,面向IoT&Edge

這是我們“周易”的第一代產品,叫“周易”Z1。這是我們跟全志科技(合作)已經正式量產,今年很快大規模商用。全志R329用的是周易Z1的AIPU,提供的算力在0.2TOPS左右。

這個算力也讓我們看到了在智能音箱領域算力的一個趨勢,我們可以看到,端到端的語音算法將會成為一個主流的趨勢。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

“周易”可以很快解決端到端的處理,把數據直接通過神經網絡送進來,不需要單獨像之前由DSP做前端處理,可以通過AIPU處理。通過試驗對比,我們跟一些DSP做了一些測算。能效比包括算力(“周易”AIPU)相當于它(DSP)的七倍以上。

這也是“周易”Z1,可以提供不同的算力組合。這是我們做了一個人體關鍵點檢測的應用案例,實際應用去跑,支持人臉關鍵檢測的算法,像Open pose、Deep pose等,在1TOPS計算力環境下吞吐量基本可以做到80FPS。而且在這個環境下,我們的bandwidth(帶寬)非常低,整個成本相較來說也比較低。

3、“周易”Z2:針對邊緣計算中高端場景優化

“周易”Z2(是)第二代產品,跟Z1有一點不同,“周易”Z2更多面向邊緣計算和中高端的場景,比如自動駕駛、中高端的安防等等。

Z2和上一代產品相比,它的特點在于單核算力是上一代產品的兩倍甚至更高,同時支持多核級聯,其算力在128TOPS左右,可以做到自動駕駛甚至中高端場景的需求,芯片面積Z2比上一代產品節省30%左右

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

從算法層面來講,“周易”Z2支持混合精度計算,同時在同等算力配置下,通過測算“周易”Z2比上一代產品針對某些網絡模型的性能高很多,兩代產品做了一個對比,找了一個比較知名的網絡模型MobileNet?V2,在帶寬節省30%同時,性能提升接近3倍左右

“周易”Z2在今年或者明年也有一些合作伙伴,基于“周易”Z2 AI IP做應用和場景的落地,主要面向安防和智能汽車兩個領域。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這是我們在“周易”Z2實際的應用環境做的智能汽車比較熱的領域DMS駕駛員的疲勞監測。我們和主流的DMS公司做了算法的合作,涵蓋了Face Detection、Face landmark、Head pose、Gaze等所有算法我們做了一個融合。“周易”Z2在1TOPS算力環境下,throughput做到了70fps左右。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

這是另外一個應用,“周易”Z2做了超級分辨率DTV(的一個案例)。我們也是跟主流的超級分辨率公司做了合作,用的“周易”Z2 1T算力硬件環境,經過我們的測算能夠做到4K 60幀左右,同時使用業內知名的圖象或者質量評價工具WMAF,其評分達到93分。基本上(該應用的)93分是非常高的分值,一般做到80分以上就非常高了。

安謀中國吳彤:ASIC定制化芯片或成未來芯片架構趨勢

最后跟大家整體的總結一下,目前安謀中國基于全球Arm的標準,我們在這個基礎上做了很多本土創新的工作。第一,我們的“周易”AIPU是面向安防、車載甚至移動很多IT場景的AI通用處理器。

還有其它的安謀中國自研產品,包括“山海”,是面向物聯網領域的安全解決方案,目前很多客戶在落地。還有兩個是我們的CPU和ISP解決方案,一個是“星辰”(STAR),(一個是“玲瓏”)。在TWS領域,OPPO用了我們“星辰”CPU IP(的產品),已經大規模量產和出貨。“鈴瓏”是我們近期剛剛安謀中國推出的自研ISP解決方案,后面還會推出面向安防和智能汽車不同應用場景的解決方案。

我今天的介紹就到這里,謝謝大家。

以上是吳彤演講內容的完整整理。