芯東西(公眾號:aichip001)
編輯 |? GACS 2024
2024全球AI芯片峰會(GACS 2024)于9月6-7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦。在7號下午舉行的邊緣/端側AI芯片專場,后摩智能聯合創始人、產品副總裁信曉旭以《存算一體,解鎖AI大模型的邊端側潛力》為題發表演講。
在演講中,信曉旭首先分析了AI技術發展的兩大趨勢:模型參數的不斷擴展和小模型的興起。后者在端側和邊緣側展現出巨大潛力。因為端側和邊緣側的應用更接近實際場景,能夠利用豐富的數據資源,為AI技術提供發展土壤。由此,信曉旭強調了端側和邊緣側在AI創新中的潛力。
信曉旭還梳理了AI芯片發展的兩個階段,提到內存訪問效率已成為新的瓶頸。在業界正在探索的幾種技術路徑中,存算一體技術通過將存儲和計算功能集成在同一芯片上,實現了低成本、低功耗和低延遲的優勢,與端側AI芯片的需求高度契合。
最后,信曉旭介紹了這兩年后摩智能陸續推出的兩種芯片,它們都展現了超過同行2倍的能效優勢,還特別實現了對邊緣計算場景的定制化優化。此外,據信曉旭透露,基于新架構的M50芯片正在研發,在新架構中,AI核心的性能將總體提升20%。

▲后摩智能聯合創始人、產品副總裁信曉旭
以下為信曉旭的演講實錄:
一、相比參數不斷增長的大模型,端側小模型的發展將更有生命力
任何一次里程技術的創新,都是0到1的質變,1后面添加多少個0要看底層的技術,賦能多少應用,解決多少問題。所以談到這樣一次技術革命,最終爆發了多大能量有多大影響力,將完全取決于最后創新。
IT行業發展歷程中最有影響力的技術革命分別有兩次,一次是計算機技術的革命,一次是通信技術的革命。
先說計算機技術的革命,計算機出來的時候是計算導彈的飛行軌跡,如果沒有用到個人電腦上,沒有更多的應用,像播放器等等,它還是實驗室的實驗工具。通信技術最開始做的最高效的通信,無時無刻不在的通信。大家可以看到現在整個移動互聯網以及APP應用完全離不開了。
任何一次的技術革命都會經歷幾個不同的階段:前期技術非常非常炫酷,然后找到應用、應用場景去解決一些問題,最后實現商業閉環這樣一個過程。大模型發展的當下,最最重要的事情就是找到應用、對應的應用場景。那么,下一個殺手級應用到底是什么?
再說到AI的技術發展,從AlphaGO到ChatGPT,這個過程中一直是沿著兩個路徑走。一個是越做越大的模型參數,實際上是探索了當前這個技術路線的邊界。技術發展到現在,我們很欣喜的發現了另外一條路徑——一些小模型的出現。大家開始嘗試把AI能力用在更多的場景中,以更簡單的方式、更少的成本部署到各個終端里。
這種模型正在陸陸續續推出,它們也展示了非常好的能力。像Llama,是在端側和邊緣側對于應用創新中的一大步。這些端側和邊緣側的應用不僅更接近實際場景,而且能夠利用豐富的數據資源,為AI技術的發展提供肥沃的土壤。
從過往的歷史可以看出,大部分技術革命都產生在端側,比如移動互聯網時代的手機等等。AI發展到現在,端側展現出更多的生命力。應用創新還會繼續發生在端側和邊緣側。
二、存算一體技術與端側AI芯片的需求高度契合
AI芯片的發展經歷了兩個階段。
第一階段缺乏專門處理矩陣和張量計算的處理器,AI芯片面臨著計算效率低下的挑戰。為了解決這一問題,業界推出了如英偉達的Tensor Core和華為昇騰的CUBE等技術,顯著提升了計算能力。
然而,隨著計算能力的提升,內存訪問效率成為了新的瓶頸,尤其是在處理大模型時,內存訪問的需求更為迫切。這種現象被稱為“Memory Wall”(存儲墻),它已成為當前AI芯片設計中亟待解決的關鍵問題。我參加過兩次峰會,第一次參加峰會的時候,我好像是所有參會嘉賓中唯一一個講存算一體的。而這次峰會上有很多人都提到了這個事情,說明大家都關注到了這樣一個痛點,我們當下就需要解決這樣一個問題。
其實解決這個“Memory Wall”的問題,大家都在嘗試不同的路徑。有兩個技術路線。其中一種方法是通過封裝技術將計算單元與存儲單元更緊密地集成,如HBM技術的成功應用。然而,盡管這種技術在云端應用中表現出色,但其高昂的成本使得端側應用難以承受。邊端側的AI芯片相對于云端來說有它特殊的需求,對功耗、對成本更敏感。我們其實需要摸索出一個更符合它需求的路徑。
存算一體其實是很多廠家都在嘗試走的技術路線。存算一體體現出來三個優勢,低成本、低功耗、低延遲。這些特點非常符合邊端側AI低功耗、低成本的需求。
三、后摩智能存算一體芯片能效比優勢顯著,特別針對邊緣計算場景優化
在創業之初,存算一體不是太多人知道,只有學術界知道。現在,存算一體開始在產業界落地。能走到這一步還是很欣慰,越來越多志同道合的朋友開始在這個領域里深耕。
我們公司做存算一體相對比較早。在過去四年中,我們一直在探索存算一體技術在端側AI、邊緣測AI的技術路徑和產品化。
我們陸續推出了兩款芯片。2023年推出了第一款后摩鴻途??H30的芯片,整體算力超過了我們原本的預期。今年推出了第二款芯片——后摩漫界??M30,算力達到了100TOPS,功耗12W左右。
我們的H30和M30芯片在能效比方面表現出色。它們每瓦特的計算效率基本上達到了7-8TOPS,我們的友商在3TOPS左右。這是超過2倍的能效優勢。這樣一個數據,更堅定了我們的信心:我們用存算一體的架構,在可以擁有更好的產品的同時,還可以實實在在解決計算效率的問題。
我們的芯片針對邊緣計算場景進行了優化。這些優化措施包括采用量化技術來降低模型的計算和存儲需求,這對于成本敏感的邊緣設備市場至關重要。量化技術通過減少模型參數的精度,從而減少模型大小和計算量,使得大模型可以在不影響性能的前提下部署到邊端設備中。
我們把行業非常主流的大模型部署在了存算一體的芯片上,都可以順利運行,結合上下文、硬件以及其他配置等因素,整體運行性能在15Tokens到20Tokens之間。
除了芯片之外,我們還提供了多種產品形態以滿足不同場景的需求,包括標準的PCIe加速卡、M.2計算模組以及Som計算模組。
結語:下一代M50芯片正在研發,AI核心的性能將總體提升20%
我們的H30和M30芯片是基于第一代天樞架構設計的。而現在,新一代的天璇架構已經完成,它在天樞架構的基礎上進行了改進和優化。在新的天璇架構中,AI核心的性能總體而言提升了20%。
基于天璇架構會推出M50的芯片,現在在開發階段,下一次演講可能就是揭開面紗的時候。