芯東西(公眾號:aichip001)
編輯 | 心緣
GTIC 2020全球AI芯片創新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI芯片產業峰會上,19位產學界重磅嘉賓從不同維度分享了對中國AI芯片自主創新和應用落地的觀察與預判。
在峰會下午場,Cadence公司驗證事業部產品工程總監孫曉陽帶來主題為《AI大時代中的芯片設計驗證挑戰》的演講。
▲Cadence公司驗證事業部產品工程總監孫曉陽
孫曉陽談及芯片設計流程存在的三個關鍵挑戰,并講解了Cadence的強大驗證產品套件,以及如何引入AI算法,來應對日益高漲的算力需求。
據孫曉陽分享,增強機器學習能力的新Xcelium ML邏輯仿真平臺在落地實例中,將完全隨機回歸運行的周轉時間縮短至原來的1/4,同時能夠達到原有功能覆蓋率99%。?
以下為孫曉陽演講實錄:
一、芯片設計難在何處?
在數據爆炸的時代,算力毫無疑問成為整個行業最具挑戰或亟待解決的一個領域。
作為國際知名EDA及IP供應商,Cadence希望其產品及方案可以助力大家在AI的海洋里面暢游。在此次峰會上,孫曉陽代表Cadence,分享了他們所觀察到的一些芯片設計挑戰。

從底向上來看,單一芯片的設計復雜度非常高,AI芯片同樣如此,有模擬、數字和混合信號,有先進工藝節點,及數十億門芯片的實現與驗證,這些都給芯片設計帶來復雜度。
因此,芯片設計者不僅需考慮單一芯片的設計,還要考慮芯片周邊整個系統的設計,包括電磁和熱分析,加上驅動程序、操作系統和應用性能,整體來看整個系統的性能。
在這之上,還要考慮運行在系統中心或者系統上的智能應用,包括學習、感知算法、定制化的用戶體驗,以及針對應用工作負載的計算優化等。
基于這些認知,Cadence著力于提升所有產品線從芯片設計到智能應用的所有算力,不再是單點或者局部地去看待芯片設計本身,除了芯片的設計、封裝等事情外,還考慮到系統的設計,考慮到用戶可能存在的算法需求、軟硬件協同需求等問題,并在引入AI算法,與客戶一起應對挑戰。
孫曉陽來自Cadence系統設計和驗證產品線,因此在演講中,他更多分享了關于系統仿真和驗證相關的產品和解決方案。

如圖是一個芯片設計的典型周期,造出一顆芯片往往需要兩三年的時間,當然不全是設計的緣故,比如需花一些時間做架構的探索和定義等。從圖中可以看到,軟件起到很大的作用,尤其在AI芯片的設計領域,由軟件驅動一個芯片的設計正變得越來越重要。
這是因為,很多AI結構具有重復性、通用性的特征,上面跑的軟件及PPA表現,是芯片設計成功的關鍵。因此軟件越早介入,越能夠保證最后出來的芯片是成功的。
我們看到,也許在有RTL、有代碼之前,可能要先做模型,從全部或部分的模型開始,在上面運行各種各樣的軟件,去評估架構,評估通路、帶寬、存儲等各類參數,來達到最好的平衡。
Cadence有虛擬的平臺來支撐各種模型的仿真,有各種RTL+部分模型的仿真,有非常知名的Palladium硬件仿真加速平臺,還有基于FPGA的原型驗證平臺Protium X1,能運行對性能、功耗、功能等各方面的驗證評估。
二、破解芯片設計驗證挑戰的三大平臺
今天在中國,人們享受到了物流帶來的便利性,可以看到在城市中,有貨車、卡車、飛機在城市群周邊做物流快遞。其中前兩者裝卸相對容易,但跑得慢;飛機跑得最快,但裝卸流程相對復雜。這里有一個概念,引擎越快,就要做更多準備工作來使能引擎,以實現更好的性能。
類似的,Cadence提供有并行邏輯仿真平臺Xcelium、硬件仿真加速平臺Palladium、基于FPGA的原型驗證平臺Protium等。Xcelium跑在100Hz水平,Palladium跑在1MHz,而Protium能跑在5MHz。

因為性能不同,應用場景也不一樣,Xcelium主要做IP的仿真評估,Palladium面向SoC芯片的仿真驗證,Protium則可以使能完整系統的開發調試。
Xcelium相比上一代有很大的性能提升,Cadence在產品中大量使用AI算法來加速性能,包括分布式計算。“可以看到,我們一邊面臨AI應用帶來的挑戰,一邊也在使用AI算法來提升算力。”孫曉陽說。
Xcelium最新發布的AI-機器學習賦能技術,可以讓驗證的吞吐力得到提升,能使覆蓋率收斂更快,可達到5倍的速度提升。例如在一家芯片公司應用最新的Xcelium ML平臺的案例中,將完全隨機回歸運行中的周轉時間速度提升4倍,達到原來產品99%的功能覆蓋率。

其原理如上圖所示,跑整個覆蓋率回歸是一樣的,有上千條、上萬條的case放到計算中心上運行,花這么多的時間才可以結束,在這個過程當中,機器學習算法就可以去學習case和覆蓋率之間的關系,從而創建一個模型,并產生更高效的測試集和相應的隨機化參數,就能在更短的時間(比如1/4、1/5的時間),達到相當的覆蓋率,從而縮短驗證時間。
還有多核仿真,在仿真回歸中,一定有一些需要花很長時間才能做完的case,針對這些case,如果有足夠的算力,用分布式的計算方式,就能縮短整個驗證回歸時間。
Palladium是業界的明星產品,主要用作仿真加速,Palladium是基于Cadence自研CPU做出來的平臺,Protium是基于賽靈思的FPGA做出來的平臺。正如剛才提到的,要應用更快的引擎,勢必做一些準備工作。這個準備工作對用戶來講是一筆開銷,怎么減少這筆開銷呢?Palladium和Protium用的是完全統一的前端編譯系統、編譯流程,這致使一個設計在Palladium跑起來后,要將它移植到Protium上就會非常簡單。
孫曉陽現場給大家一個參考,有些AI公司在40億門左右,系統廠商在140億門左右,或者其它超大型公司有30億門左右,在Palladium和Protium是這樣的比例。

他也再次強調軟件驅動的重要性,軟件越早介入,就能讓芯片或整個開發周期縮短,一開始用全部虛擬的平臺,有模型就可以開始做很多開發和評估。
最近很多AI、GPU公司都遇到這樣的需求,它的主力可能是做GPU或AI算法相關IP,而不是CPU、互連等技術。于是在開始確定一些架構的時候,它們可以拿Cadence的虛擬平臺來建立一個虛擬CPU、真實的GPU或AI IP,然后就能去做開發和評估。
因此全套軟件可以貫穿從虛擬到部分IP芯片的混合動力仿真到整個芯片回來的整個流程。很多客戶已經有部署這個方法學流程,比如博世主要關心它的IP,很早就可以介入軟件開發;再比如英偉達做的是大型的系統,當Cadence把CPU從RTL中搬出來后,性能可以得到更大的提升。
三、EDA是關鍵性少數
接著,孫曉陽談到AI芯片的幾個關鍵點,包括存儲、互聯及一些相關IP。Cadence在這些先進制程領域,IP追得非常緊,包括內存、DDR、HBM等都緊追最新標準。除了有IP,大家還有驗證IP產品VIP,Cadence在驗證方面也會有相應的解決方案,今年已追到像PCIe6這樣的標準。
芯片做功能驗證,還要追求PPA的指標等事情。在SoC系統上,除了用Cadence的IP之外,也可以用Cadence System VIP產品去模擬整個數據流,從而幫助實現很多系統級分析,還能自動生成test bench,來降低人工的時間。

Cadence還有其它的產品、驗證和設計的管理,比如有企業級的驗證管理方案,從計劃到實施到最后的覆蓋率,能滿足跨地域團隊驗證的流程;還有調試,在整個驗證的cycle里面,調試約占70%的時間,因此調試工具毫無疑問是最重要的,新的Indago Debug平臺可以提升調試的效率,并且有開放的接口,性能也在持續提升。
在演講末尾,孫曉陽總結說,此次演講主旨很契合當下的新基建,過去二三十年間,中國持續做高速公路的建設、高鐵的建設,是今天快速物流的前提。而Cadence相當于在做基建的工作,提供快速的計算平臺,讓各位的計算訴求在計算平臺上跑得更快。今天的新基建是另外一種,它不是鋼筋水泥,而是數據中心、絕對算力、AI芯片這樣的更高級的東西。這些邏輯是一脈相承的。
Cadence采用了大量的算法來持續提升這些引擎的計算能力。孫曉陽主要代表Cadence的系統設計和驗證團隊,但其產品線遠不止于驗證部分,還有時限、布線、系統分析等很多其它產品線。Cadence持續打造“Intelligent System Design”的全流程解決方案,更好地服務于客戶。
最后,他提到20年前剛進入EDA行業時,一位前輩曾跟他講過的話:“EDA是關鍵性少數。”
就算是兩年前,鮮少有大眾能夠理解EDA是什么,而今天大家都在談EDA,其“關鍵性”毋庸置疑。
但是少數還沒有變成多數,孫曉陽非常高興看到這么多人做AI芯片,希望有更多的人投身EDA行業,使其變成關鍵性的多數,帶來更快的進步。
以上是孫曉陽演講內容的完整整理。除了孫曉陽外,在本屆GTIC 2020 AI芯片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、燧原科技、黑芝麻智能、壁仞科技、光子算數、知存科技、億智電子、豪微科技等芯片創企,Imagination、安謀中國等知名IP供應商,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI芯片產業的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關注芯東西后續推送內容。