芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦。在7日的主會場邊緣/端側AI芯片專場上,云天勵飛副總裁、芯片業務線總經理李愛軍以《面向大模型的國產工藝邊緣AI芯片架構創新與展望》為題發表演講。

隨著大模型推動物理世界的智能化演進,更多的應用將在邊緣側完成。大模型使邊緣AI場景面臨新的算力挑戰算力需求大、帶寬要求高、計算擴展性強。李愛軍談道,國產工藝邊緣AI芯片要應對挑戰,架構創新是關鍵

面向大模型所帶來的新的邊緣AI計算場景,云天勵飛研發國內首顆基于國產工藝Chiplet系列化邊緣AI芯片,采用“算力積木”的理念,設計了D2D Chiplet/C2C Mesh大模型推理架構,從芯片設計、制程工藝、基板選擇到封裝測試均用國產技術,算力覆蓋8TOPS~256TOPS,滿足大模型落地的個性化需求,可應用于各類邊緣場景,并且工具鏈與軟件棧統一,算法的部署落地更便捷。

他預告說,云天勵飛后續將發布基于國產工藝的大模型邊緣推理一體機,提供更有性價比的邊緣算力。

云天勵飛李愛軍:詳解“算力積木”架構,探路國產工藝邊緣AI芯片丨GACS 2024▲云天勵飛副總裁、芯片業務線總經理李愛軍

以下是李愛軍演講內容的完整整理:

一、大模型邊緣落地離不開芯片,打造三大產品技術平臺

云天勵飛創業10年一直堅持在邊緣AI這個場景。今年,大家非常清楚處于大模型應用落地元年,我們看到的現狀是大模型應用落地。海量的場景一定是在邊緣,而邊緣一定離不開芯片,離不開芯片其實有一個繞不開的話題就是國產工藝。如何在當前國產工藝的條件下做出能夠滿足大模型邊緣落地的AI芯片?這是我們不可回避的話題。今天我就給大家帶來云天勵飛基于這一命題下的一些實踐和探索。我會從以下四個方面闡述。

云天勵飛自創業以來深耕邊緣AI,圍繞著邊緣AI,打造了三個產品技術的平臺。

第一個產品技術平臺是應用落地驅動的算法平臺。通過這個平臺我們實現了覆蓋14個領域、超過102個種類,300多個適合邊緣AI行業落地的算法,這樣的平臺還支持端云協同,支持算法在細分場景下的快速訓練微調和快速部署,我們在這個平臺上也打造了云天自己的天書”多模態大模型。這個大模型在今年3月28日產品發布會上已經正式對外發布了。

第二個平臺是算法驅動的神經網絡處理器平臺。在這個平臺上實現高效推理指令級設計,同時完成了四代神經網絡處理器的迭代。也是因為這么高頻的迭代,所以我們可以高效地支持包括卷積神經網絡,包括DV神經網絡,以及新一代的Transformer計算方式。在這個基礎上,我們可以高效支持包括視覺大模型、多模態大模型和大語言模型這類在邊緣高效推理。

第三個平臺是面向邊緣計算場景芯片平臺。基于這個平臺,我們實現三代商用邊緣AI芯片的迭代,同時算力覆蓋從2T到256T的規模。我們在這樣一個平臺上,也完成了基于國產工藝的D2DChiplet先進封裝技術,我們可能是國內第一個能達成商用量產階段的芯片和平臺。同時在這個基礎上,我們還實現了C2C Mesh高效互聯技術開發。

基于上面的三大平臺,我們從邊緣AI底層的算法,以及AI處理器和芯片技術的不斷迭代和創新,支撐了過去10年來云天勵飛推出一系列面向邊緣AI的產品。基于這些邊緣AI產品,我們也一步步去探索面向邊緣AI行業應用的各種場景。通過這些場景的探索,我們反過來又可以反哺算法和處理器、芯片的迭代,下一代包括算法,以及處理器和芯片下一代的迭代開發。

二、大模型向物理世界演進,垂類大模型解應用場景難題

大模型在邊緣落地具有哪些挑戰呢?

首先回到過往AI1.0時代,在AI1.0的時代,邊緣場景落地有兩大痛點,第一個是場景眾多。場景眾多帶來最大的問題是為了滿足場景的需求,需要各種各樣的長尾算法,而長尾算法生產效率出現了投入產出不成正比的情況。李愛軍提到,過去10年以來,有很多算法創新公司,基本很難實現盈利,包括我們在內。

另外一個痛點,用于邊緣AI場景的芯片和算力五花八門,帶來的問題是什么?邊緣產品極度碎片化,我們很難有哪一個場景下的哪一個芯片年用量突破10萬片,甚至是5萬片。在這樣的情況下,是很難有做芯片的規模效應,或者是邊緣場景落地的規模效應。

大模型出現以后,我們看到了在邊緣AI場景大規模落地,我們覺得有了這個可能性。在過去一年半內,我們看到整個大模型算法在快速向物理世界演進。從2022年11月份ChatGPT發布標志著語言大模型突破;到2023年3月份,Stable Diffusion發布,標志著圖像大模型的突破;再到2024年2月份,Sora大模型出現,進一步開始理解物理世界;一直到今年5月份,空間計算率先提出,同時基于空間智能的大模型也開始出現,大模型在進一步理解三維的物理世界。

另外一方面,去年大家在拼基礎大模型,到現在大家開始往行業走,開始真正把大模型往應用落地方向推。出現了各種各樣的垂類大模型,開始真正去解決應用場景的問題。而大模型的落地正在快速從云端往邊緣端發展,現在大家提得最多的就是大模型邊緣節點怎么去構筑。

三、大模型落地邊緣AI芯片迎挑戰,提出“算力積木”新架構解題

大模型落地對我們的邊緣AI芯片帶來了新的挑戰。邊緣應用場景本身有剛性需求,這個需求里面有系統自動化的要求,有人機交互的要求,包括更方便、更便利控制和維護的要求,以及隱私保護的要求。大模型又帶來了新的計算范式,以及大參數量、大吞吐、大算力要求。這兩者結合以后,對我們面向大模型邊緣AI的落地提出了全新的芯片要求。包括對于新的計算范式,要具有高的內存帶寬,以及高的內存容量。同時,算力要具有很強的擴展性。為什么?因為我們看到在邊緣大模型落地,參數有1.8B、1.4B、2.4B,還有3B、4B、7B、8B一直到13B等一系列。你如何能夠提供出一個彈性的架構,可以使得各種各樣的大模型在落地的時候能保證大模型高推理實時性要求,同時還要保證高性價比。這其實是對邊緣AI芯片提出很高的挑戰,同時還要具備高能效、高實時性、高性價比等一系列的特性。

云天勵飛基于國產工藝提出了“算力積木”這樣的架構創新來應對這樣的挑戰。我們再回顧一下國產工藝。我們看到的是國產工藝在相當長的一段時間內可能比國際工藝都要落后兩到三代。我們如何在相對落后的國產工藝上又實現滿足大模型落地需要的高性能、高性價比的邊緣AI芯片的突破呢?我們覺得只有在架構上進行創新才是唯一的出路。

云天勵飛基于國產工藝提出的“算力積木”架構,是一個基于國產工藝的D2D Chiplet和C2C Mesh的大模型推理架構。我們首先實現了一個標準化的大模型的計算單元,這個計算單元可以實現1.8B大模型的實時高效推理;在這個基礎上,通過D2D Chiplet藝術,可以實現7B大模型的高效推理;在此基礎上,利用C2C Mesh技術,實現了14B的,140億參數高效推理;進一步通過Mesh Torus架構可以實現高達1000億以上模型在邊緣端的推理。這樣的架構可以滿足邊緣算力在保證實時性的情況下,可以實現大模型對于算力的擴展性,以及靈活性的要求。

四、堅持走國產工藝路線,將推大模型邊緣架構推理機

為了實現這樣的方面,我們做了很多技術上的創新。我們在標準化算力單元上面進行了以下三個創新,實現大模型高效推理。

首先,我們設計了近存計算,通過近存計算可以實現Transformer這種計算的超低延時。通過可編程路由引擎,我們可以實現高效分布式的并行計算,同時通過多路由協同機制。可以有效地提高大模型的參數數據響應速度,從而滿足高效推理的需要。

我們在Mesh Torus上面,通過自適應路由機制,能夠實現減少數據搬運次數;通過減少數據搬運次數,可以有效地降低帶寬的需求;通過Torus結構,可以有效地降低多跳帶來時延的影響,從而可以提升推理速度。我們現在可以實現8×16個標準“算力積木”單元的Mesh Torus架構互聯,可以提供2048Tops統一管理智能算力。同時,我們可以實現統一的內存管理尋址,容量可以達到512GB。大家知道現在大模型最大的就是參數量。如果沒有大內存,你想做到很好的推理是難的。我們還可以實現可統一調度的內存帶寬,高達3840GB/s的帶寬。

基于這樣的一些架構上的創新,我們也推出了國內首個基于國產工藝Chiplet邊緣化的AI芯片。這個芯片是全國產化的設計,從設計到工藝到封裝等。同時也是系列化芯片,算力從8T到256T范圍,可以滿足邊緣場景各類大模型落地算力的需要。這個芯片還是主控級SoC芯片,一顆芯片就可以滿足這個場景單芯片設備的需要,不需要再加其他的芯片,集成了第四代的處理器。雖然芯片是系列化的,但是我們工具鏈是統一的,而且是統一的軟件棧,這樣方便軟件的開發和應用。

目前Edge10國產化芯片平臺已經支持了主流大模型,包括Transformer模型、BEV模型、CV大模型和各類主流的大語言模型,還有多模態大模型。我們在單個“算力積木”單元,就是單芯片上,可以實現1.8B模型14.5tokens/s的性能。在Chiplet芯片上,可以實現1.8B模型,達到55tokens/s的推理性能。如果是7B模型,可以實現30tokens/s的性能。如果是用Edge10做的Mesh Torus的一體機,對70B模型可以有高達60tokens/s的推理。

Edge10芯片現在已經在邊緣AI各類場景下實現商業化落地。

我們展望邊緣AI大模型芯片的發展,無論是Gartner的預測,還是ABI的研究,包括IDC的預計,大家的判斷都是一致的。未來大部分的場景數據都將在數據中心之外產生,數據中心之外就是在邊緣端產生。我們認為在大模型和海量數據的驅動下,邊緣AI芯片未來一定會在可見的未來迎來大爆發。邊緣AI芯片大爆發最核心的就是大模型邊緣推理,它需要具備的,包括大算力、高能效、低延時、可擴展。特別是國產化,在當前的國際形勢下特別重要。

未來,云天勵飛將會推出基于Mesh Torus架構的大模型邊緣推理一體機。以高峰值算力與突出的能效比支持大模型的單機部署,包括7B、70B、MoE等主流大模型的邊緣側推理部署。

我們堅持走國產工藝這個路線。通過架構創新的方式,能夠在相對落后的國產工藝上進行性能突破,我們相比現在主流的用于大模型推理的一體機,我們可以做到更高的性能、更高的性價比。即使用國產工藝,我相信我們也可以給大家帶來更高性價比的產品。