芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

在系統芯片開發過程中,軟硬件協同設計愈發成為一個“基本功”。

相比完全倚仗芯片的硬件設計,與軟件的適配協同開發能夠更充分地挖掘算力,使芯片在實際應用中更好發揮出性能優勢。

尤其是高速創新的人工智能(AI)領域,軟件迭代的速度如此之快,固化的硬件設計難以滿足蓬勃生長的算力需求,這促使滿足未來需求的硬件與軟件間的結合變得十分關鍵。

在這個話題上,一直探索將總部位于英國的知名半導體IP供應商Imagination Technologies相當有發言權。

從IP設計之初,Imagination便將能做“計算”的核放在一起做資源優化,目前其產品線覆蓋GPU、AI、CPU三大領域,同時打造有IMG DNN SDK軟件平臺。其中GPU可多核擴展支持6TFLOPS的算力,AI加速器可支持到100TOPS乃至超過5000TOPS的算力。

近日,Imagination Technologies產品總監Rob Fisher在與芯東西進行的遠程交流期間,從AI專用芯片IP硬件核設計的角度分享了更多的經驗之談。

勘破AI芯片軟硬協同設計的難點與要點,對話Imagination產品總監▲Imagination Technologies產品總監Rob Fisher

Rob Fisher特別強調了一些設計要點:在軟件設計方面,必須具備快速制作新架構原型并測試新架構的能力;在硬件設計方面,必須選擇合適的加速粒度以兼顧靈活性和性能。

在他看來,軟硬協同設計對于保證最靈活、最具適應性的解決方案至關重要。要獲得最大的收益,應在IP核的設計階段就開始軟硬協同設計,而不是等到選擇IP的時候才開始。“Imagination重視軟硬協同設計,并將完整的編程模型視為IP開發的一部分。”Rob Fisher說。

從2015年起,Imagination就開始投入研發AI專用芯片IP核,從2NX、3NX到2020年推出的4NX,其產品一路迭代,性能也從0.5TOPS、12.5TOPS攀升至100TOPS甚至更高。在做AI硬件加速時,Imagination進行了軟硬件一體配套設計,并與芯片公司合作探索如何從IP層面實現軟硬件更深度的融合。

開發AI硬件和軟件需要投入大量資源,來確保架構的可編程性與適應性足以滿足未來的需求,同時實現高吞吐量以及低功耗、小面積和低帶寬。

在這方面,Imagination已經積累了7年的AI加速器開發經驗。Rob Fisher認為,沒有足夠的知識積累,很難開發出像Imagination PowerVR NNA這樣的高性能IP。

他告訴芯東西,Imagination了解在某些情況下,標準的優化和工具流程無法充分發揮硬件的潛力或滿足特定的部署限制(如帶寬),此時可以進行進一步的分析和優化。Imagination針對特定的AI和計算工作負載進行了優化,例如在同時使用SIFT和計算機視覺算法與機器學習的案例中,Imagination團隊經過分析后在PowerVR GPU上展示了業界領先的加速能力。

Imagination希望通過產業化的軟件平臺,將AI框架解析過來的工作通過DNN最終部署到合適的硬件平臺。例如,Imagination的PowerVR GPU和PowerVR NNA,采用一體化的IMG DNN API的設計,使其客戶可以很容易地使用同一套API,向上適配TensorFlow、Caffe、百度飛槳等業界主流框架,向下適配NNA only或GPU+NNA等不同的硬件方案。

看向未來,要實現硬件對更多AI框架及算法的適配與融合優化,Rob Fisher認為加速粒度將是實現軟件優化和算子融合的關鍵

軟硬一體已是未來AI發展的主流趨勢。隨著AI技術更加成熟并進入更廣泛的行業應用中,業界已從分工獨立的硬件算力驅動和算法創新驅動走向算法與硬件協同創新階段。這將需要更多業界的軟硬件企業增進合作,探索如何將芯片設計與軟件形成更好的結合,以在更適合的落地場景中將落地部署的硬件性能發揮到最佳水平。