芯東西(公眾號:aichip001)
作者 | ?全球AI芯片峰會
芯東西9月17日(ri)報道,今日(ri),2025全球AI芯片(pian)峰會在上海(hai)舉行(xing),來自(zi)AI芯片(pian)領域的42位(wei)產學研(yan)專家及(ji)創業先(xian)鋒代表(biao),暢談對(dui)大模型下半場中(zhong)國AI芯片(pian)創新、落地、生存、破(po)局的最新觀察與(yu)思考(kao)。
一如既往(wang),大會將(jiang)國產AI芯片(pian)新老勢力、核心生態鏈(lian)企(qi)業、投資機構代表匯聚一堂,集中輸(shu)出技(ji)術(shu)及產業干貨(huo),全景式解構AI芯片(pian)熱門發展方(fang)向。
本屆峰會由智一科技旗下智猩猩與芯東西共同舉辦,以“AI大基建 智芯新世界”為主題,由主論壇+專題論壇+技術研討會+展覽區組成,覆蓋大模型AI芯片、架構創新、存算一體、超節點與智算集群技術等前沿(yan)議(yi)題。AWE同時也是本次峰會的戰(zhan)略合作機構(gou)。
值得一提(ti)的(de)(de)是,多家(jia)AI芯(xin)片企(qi)業在(zai)會上放出猛料。例如,幾位(wei)資(zi)(zi)深投(tou)資(zi)(zi)人分享(xiang)投(tou)資(zi)(zi)AI芯(xin)片企(qi)業所看(kan)重的(de)(de)條件,一家(jia)超節點創企(qi)成立幾個月(yue)(yue)就融資(zi)(zi)六七億,云天勵飛正在(zai)研發(fa)新一代NPU Nova500,華為昇騰將在(zai)12月(yue)(yue)把CANN全量開源,曦望Sunrise下一代芯(xin)片的(de)(de)大模型推理性(xing)價(jia)比對標英偉達Rubin GPU。
在展覽區,超摩科技、奎芯科技、特勵達力科、Alphawave、芯來科技、Achronix、曦望Sunrise、矩量無限、AWE、晶心科技、芯盟(meng)科技等11家(jia)展(zhan)商進行展(zhan)示(shi)。
▲展覽區一隅
作為主辦(ban)方代表(biao),智一(yi)(yi)科技聯(lian)合(he)創(chuang)始(shi)人(ren)、CEO龔倫(lun)常發表(biao)致辭。從(cong)2018年3月至(zhi)今,全球(qiu)AI芯(xin)(xin)片峰會共邀請了(le)超過180位(wei)產(chan)學(xue)研大咖(ka),分享行業(ye)趨勢與洞見,已成為AI芯(xin)(xin)片領域(yu)唯(wei)一(yi)(yi)一(yi)(yi)個持續(xu)舉辦(ban)且具有(you)廣泛影(ying)響力的(de)產(chan)業(ye)峰會,也是了(le)解國內(nei)外AI芯(xin)(xin)片動態的(de)重要窗口。
▲智(zhi)一科技聯(lian)合創(chuang)始人、CEO龔倫常
龔倫常還預(yu)告(gao)了將于今年11月(yue)底在深圳舉辦的2025中(zhong)國具身智能機器人大會,歡迎大家(jia)參(can)會交流(liu)。
注:本文整理了主論壇與大模型AI芯片專題論壇的精華總結。更多相關報道將在后續發布。
一、IEEE Fellow王中風教授:解讀AI芯片三大前沿方向
應對模型規模“超摩爾”增長、傳統架構“內存墻”、應用場景日趨多元化三大挑戰,中山大學集成電路學院院長、IEEE/AAIA Fellow王中風教授探討了AI芯片設計的三大前沿方向,為行業的發展提供了寶貴的見(jian)解和指導。
一是模型驅動的高效芯片設計,在模型尺寸增長的趨勢下,讓硬件深度適配AI模型特性,而非讓模型發展受限于硬件資源。
王中風教授團隊提(ti)出的(de)Transformer硬件加(jia)速架構設計(ji)(ji)工作(zuo),是(shi)首(shou)個完整解決Attention計(ji)(ji)算(suan)加(jia)速挑戰的(de)方(fang)案,獲(huo)得了IEEE 2020年(nian)片上系統(tong)年(nian)會(SOCC)最佳(jia)論文獎;N:M稀(xi)疏Transformer推理加(jia)速框(kuang)架,可快速實(shi)現任意(yi)N:M稀(xi)疏比例的(de)Transformer模型開發和硬件部署,同時能保(bao)持精度(du)(du)穩定;粗粒(li)度(du)(du)-細(xi)粒(li)度(du)(du)混合精度(du)(du)量化,搭(da)配專用多核加(jia)速器(qi)來處理差異計(ji)(ji)算(suan),能夠實(shi)現更靈活(huo)的(de)調度(du)(du)。
二是應用驅動的AI芯片創新,注重模型的落地與應用,兼顧能效和靈活性的探索。
架(jia)構(gou)(gou)(gou)創(chuang)新沒(mei)有(you)唯一解(jie),只有(you)更合(he)適(shi)的解(jie)。結合(he)可重構(gou)(gou)(gou)硬件(jian)架(jia)構(gou)(gou)(gou)(動(dong)態適(shi)配不(bu)同算法需求)、領域專用架(jia)構(gou)(gou)(gou)(在(zai)垂直(zhi)場景實現超過(guo)通用架(jia)構(gou)(gou)(gou)的能效)、Chiplet等先進封裝技術(shu)(提高設計(ji)靈(ling)活性、降低成本、縮(suo)短上市(shi)周期),以應用驅(qu)動(dong)為核(he)心的AI芯片設計(ji),將是(shi)未(wei)來(lai)值得重點探索的研(yan)究(jiu)方向。
三是基于存算一體的芯片設計,從存算架構根源降低能耗,平衡性能與功耗。
存(cun)(cun)算一(yi)體架(jia)(jia)構是芯片設(she)計范式轉移(yi)的(de)一(yi)個重要(yao)方向。數(shu)字存(cun)(cun)算架(jia)(jia)構的(de)優(you)勢(shi)是高精度、高穩定性、生態更成(cheng)熟(shu),但存(cun)(cun)在(zai)高能耗、高硬(ying)(ying)件開銷(xiao)(xiao)、低(di)存(cun)(cun)儲密度等問題;模擬存(cun)(cun)算架(jia)(jia)構具有低(di)能耗、高存(cun)(cun)儲密度、低(di)硬(ying)(ying)件開銷(xiao)(xiao)等優(you)勢(shi),但精度較(jiao)低(di)、對工藝要(yao)求高、生態不(bu)成(cheng)熟(shu)。王中風教授團隊(dui)研究(jiu)的(de)基(ji)于SRAM的(de)數(shu)字存(cun)(cun)內計算架(jia)(jia)構大(da)模型(xing)加速(su)器,支持(chi)多種數(shu)據精度,相比(bi)于傳統馮諾依(yi)曼架(jia)(jia)構,能效比(bi)可(ke)提升數(shu)十倍。
上述三條路徑并非孤立,而是相互支撐,共同推動AI芯片從“通用適配”走向“精準定制”。
▲中(zhong)山大學集(ji)成電路學院院長、IEEE/AAIA Fellow王(wang)中(zhong)風教授
王中風教授總結說,當前AI芯片發展呈現三大關鍵趨勢:一是從通用計算走向領域專用的“專用化”,二是算法與軟硬件共同進化的“協同化”,三是通過新型計算打破性能瓶頸的“一體化”。
以AI計算專用架構SRDA(系統級極簡可重構數據流)為例,通過分布式3D內存控制技術、可重構數據流計算架構、系統級精簡軟硬件融合設計等創新,在大模型智算場景可以大幅提升AI算力利用率與性能,驅使未來基于國產工藝的AI算力芯片也可以實現不亞于國外更先進工藝制程的GPGPU性能。
下一(yi)代(dai)計(ji)算(suan)范式(shi)的(de)(de)發展,首(shou)先(xian)是(shi)軟(ruan)件、算(suan)法、硬件的(de)(de)共生(sheng),實(shi)(shi)(shi)現(xian)(xian)全環節(jie)協同(tong)進化;其次是(shi)實(shi)(shi)(shi)現(xian)(xian)無處(chu)不在、高效且(qie)可(ke)信的(de)(de)智能計(ji)算(suan),在云端實(shi)(shi)(shi)現(xian)(xian)支持AGI訓練的(de)(de)巨型(xing)超算(suan)系(xi)統(tong),在邊緣實(shi)(shi)(shi)現(xian)(xian)自主機器人的(de)(de)實(shi)(shi)(shi)時(shi)決策大腦,在端側實(shi)(shi)(shi)現(xian)(xian)超低(di)功耗的(de)(de)Always-On感(gan)知芯(xin)片(pian)。
此外,高效支持智能計算,還需要促進新興技術融合,實現光子計算、量子計算、AI芯片的潛在結合。
王(wang)中風教(jiao)授呼(hu)吁開放(fang)標準,推動接口、互(hu)聯、指(zhi)令集(ji)等的開放(fang),降低創新門檻(jian);注意產學(xue)研深度合作,共同攻克量智融合、存算(suan)一體、新材料、新工藝(yi)、新器件等領域的技術(shu)難題;注重人(ren)才培(pei)養,培(pei)養兼具算(suan)法(fa)、架構、底(di)層電路(lu)及軟件開發(fa)等技能的交叉型人(ren)才。
二、高端對話:大模型下半場引爆國產算力,AI芯片IPO潮將更具想象
高端對話以《?模型(xing)下半場(chang),中國AI芯?的破局與突圍》為主(zhu)題,由(you)智(zhi)一科技(ji)聯(lian)合(he)創始(shi)人、智(zhi)車芯產媒矩陣總編輯張國仁(ren)主(zhu)持,和(he)利資本(ben)合(he)伙?王馥宇、普華資本(ben)管(guan)理(li)合(he)伙?蔣(jiang)純、BV百度(du)風投(tou)董(dong)事總經理(li)劉?、IO資本(ben)創始(shi)合(he)伙?趙占祥四位(wei)嘉賓(bin)進行分享(xiang)。
張(zhang)國仁談(tan)道,大模型的下半場(chang)不僅是(shi)技術(shu)競賽,更(geng)是(shi)生態競爭,期待中國即將誕生“芯片+場(chang)景+算法”的垂直整合者(zhe),出現更(geng)多的單項冠軍。
▲智(zhi)(zhi)一科(ke)技聯合創始(shi)人(ren)、智(zhi)(zhi)車芯產媒(mei)矩陣總編(bian)輯張國仁(ren)
1、DeepSeek擴大算力池后,投資AI芯片企業看什么?
王馥宇認為,DeepSeek的(de)(de)出(chu)現(xian)意味著中國出(chu)現(xian)了(le)“Leading Customer”,好的(de)(de)科技公司會向芯(xin)片公司提出(chu)需(xu)求(qiu)。蔣純進一(yi)步(bu)補充(chong)道,DeepSeek最大的(de)(de)意義是讓(rang)中國有(you)了(le)一(yi)套自有(you)大模型體系,讓(rang)國產芯(xin)片有(you)了(le)用(yong)武之地。
這些資深投(tou)資人會傾向于投(tou)資什(shen)么樣的AI芯片(pian)團隊?幾位(wei)投(tou)資人均看重企業的技術路線是(shi)否收斂。
趙占祥尤其關注技(ji)術路線是否有(you)提升及創(chuang)新(xin)。劉水提到(dao)百度風投不單(dan)純(chun)(chun)以商業化(hua)衡量項(xiang)目價(jia)值。蔣純(chun)(chun)說(shuo):“小孩子(zi)才做選擇,成(cheng)年人我都要(yao)。”他表示(shi)成(cheng)熟(shu)技(ji)術和創(chuang)新(xin)技(ji)術都在(zai)投資。王(wang)馥宇(yu)將市場分為兩(liang)類,一類是相對確(que)定的(de)市場,考驗團(tuan)隊(dui)的(de)積累(lei)和執行(xing)力,第二類是靠技(ji)術驅動市場發展。
展望(wang)芯片企業的未(wei)來機遇,蔣純認為,碳基(ji)文明被(bei)硅(gui)基(ji)文明取代(dai)之(zhi)前,算力的市(shi)(shi)場(chang)機會看不(bu)到頭,市(shi)(shi)場(chang)前景無窮大(da),現(xian)在(zai)的技術體系并(bing)不(bu)是終(zhong)局。
2、一家超節點創企,成立幾個月融資六七億
王馥宇稱,很(hen)多大廠同樣(yang)在構建非全家桶方(fang)式的網絡架構,未來百花齊放,企(qi)業(ye)要(yao)保持(chi)開發、敏(min)感。
在蔣純看來,對中國企業面(mian)臨的現實情況而言,“小米加(jia)步(bu)槍(qiang)”的scale out路線和超(chao)節點所代表的scale up路線至少是(shi)同樣重要。
趙占祥透露,IO資本最近在(zai)(zai)看(kan)的一個超(chao)節點創(chuang)業(ye)公司,成(cheng)立幾(ji)個月(yue)就融資六七億,但在(zai)(zai)超(chao)節點機遇背(bei)后,網絡的可(ke)靠性、故(gu)障率要求仍面(mian)臨挑(tiao)戰。
BV百(bai)度風(feng)投(tou)曾投(tou)資(zi)不少具身(shen)智能企業。據劉水分(fen)享,具身(shen)智能是個新興賽道,芯片作(zuo)為核心硬件(jian)支(zhi)撐,目前還在迭代期,真正能完美匹配各類(lei)復雜物理交互(hu)場景的成熟(shu)芯片產品,行業內仍(reng)在探索(suo)。
現階(jie)段,很(hen)多企業選(xuan)擇(ze)x86 CPU加AI芯片的組合來搭(da)建基礎算(suan)力平臺,這是行業在技(ji)術演進過(guo)程中非(fei)常(chang)自(zi)然的過(guo)渡性選(xuan)擇(ze),能快速驗證產品(pin)邏輯、跑通(tong)初步場景。
而這種(zhong) “過渡(du)性(xing)” 也(ye)正(zheng)是(shi)產業的(de)(de)機會所在——未(wei)來(lai)無(wu)論是(shi)更適配具身特性(xing)的(de)(de)專(zhuan)用(yong)芯片研發,還是(shi)基于(yu)現有硬(ying)件的(de)(de)算力效率優化,只要能解決(jue)實際(ji)場景中的(de)(de)痛點(dian),就是(shi)產業發展的(de)(de)機會點(dian)。
3、寒武紀一度登頂A股,“寄托了全村人的希望”
幾位投資人雖(sui)然主要看一級市(shi)場,但也聊到對二級市(shi)場的觀察。他們普遍(bian)認為(wei),接下來要IPO的AI芯片公(gong)司會比登陸(lu)2019年科(ke)創板的那(nei)批國產(chan)替代概(gai)念芯片公(gong)司更有(you)想象力。
今年,寒武紀一(yi)度超越貴州茅臺登頂(ding)A股(gu)“股(gu)王(wang)”。在蔣(jiang)純看來,寒武紀的(de)暴漲(zhang)背后可能“寄托了全村人(ren)的(de)希望”。與上一(yi)波芯片(pian)企業上市潮相(xiang)比(bi),當(dang)時國產替代概念市場(chang)有限,但現在AI市場(chang)的(de)需(xu)求是無限的(de)。
劉水補充說,AI需求正為(wei)(wei)計算基礎設施建設注入強勁動(dong)力(li)。當前,不少國產(chan)芯片(pian)企(qi)業積極推(tui)進IPO進程,這本身是行業加速成長的體現——借助資本市(shi)場的力(li)量,企(qi)業能更好地(di)投入研發、擴充產(chan)能,為(wei)(wei)技術突(tu)破和規模化(hua)交付奠定基礎。
不過(guo),上市只是發(fa)展(zhan)的新起點(dian),最終能否站穩市場,關鍵仍在于技(ji)術的成熟度(du)(du)、產能的穩定(ding)供給以及客戶的深度(du)(du)認可。
從長遠來看(kan),企業(ye)(ye)需要(yao)以持續的(de)技(ji)術創(chuang)新和(he)扎實(shi)的(de)商業(ye)(ye)化能力(li),真正實(shi)現產業(ye)(ye)價值與市場價值的(de)同步兌現。
三、瞄準大模型高效推理,做好生態開源開放
面向持(chi)續爆發的大(da)模型(xing)推(tui)理需求(qiu),如(ru)何在(zai)芯片架構、開(kai)源(yuan)開(kai)放、高速互(hu)連、超節點等方(fang)向探索創(chuang)新?
在上午(wu)主論壇(tan)期間,來自云(yun)天勵(li)飛、華(hua)為昇(sheng)騰、行云(yun)集成(cheng)電路(lu)、奎芯科(ke)技、探微芯聯、新(xin)華(hua)三的(de)產業嘉賓分別發(fa)表主題演講,分享了他們的(de)觀察與思考(kao)。
1、云天勵飛陳寧:國產AI推理芯片迎歷史性機遇
云(yun)天(tian)勵(li)飛董事(shi)長兼CEO陳寧談道(dao),在(zai)“政策+需求”雙重驅動下,國產AI推(tui)理(li)芯片正迎來(lai)絕佳(jia)發展(zhan)機遇。根(gen)據(ju)灼識咨詢報告,中(zhong)國NPU市(shi)場規(gui)模(mo)短期(qi)預計新增規(gui)模(mo)339.3億(yi)元(yuan),長期(qi)預計新增規(gui)模(mo)1092億(yi)元(yuan)。
高效Token生成是(shi)衡(heng)量(liang)推(tui)理芯片性價比(bi)的(de)關鍵指(zhi)標。11年來,云(yun)天勵飛(fei)已研發(fa)五(wu)代NPU,打造相關指(zhi)令集、專用算子、存(cun)算一體架構(gou)、低比(bi)特混合量(liang)化(hua)等芯片硬件技(ji)術。其(qi)“算力積木”架構(gou)是(shi)基于國產工藝的(de)D2D Chiplet & C2C Mesh大(da)模型推(tui)理架構(gou),具有可擴展性強、靈(ling)活(huo)性強、實時性高等特點。
云(yun)天勵(li)飛提(ti)供“深(shen)穹”、“深(shen)界(jie)”、“深(shen)擎”三大(da)AI推(tui)理芯片系列,分別面(mian)向(xiang)大(da)模型推(tui)理算(suan)力中心/超節點(dian)/一體機/加速卡、邊緣網關/邊緣盒子/家(jia)庭主機、及機器(qi)人(ren)/無人(ren)機/無人(ren)車等AI推(tui)理等應用。
目前(qian),云天勵飛正在研發新一(yi)代NPU Nova500,并基于Nova500推出多款性(xing)能(neng)更強(qiang)的AI推理芯片。
▲云天勵飛董事長(chang)兼CEO陳寧
2、華為昇騰王曉雷:公布全面開源的三個關鍵節點
華為(wei)昇(sheng)騰處理(li)器產品總經(jing)理(li)王曉雷談道,英偉達(da)的(de)軟件開(kai)發人(ren)員是硬件的(de)兩倍(bei),我們作為(wei)生態的(de)后(hou)來者,要做好開(kai)源(yuan)開(kai)放,跟客(ke)戶與伙伴一起,把(ba)芯片和解決方(fang)案做得更好。
芯片方案多(duo)種多(duo)樣,如何把(ba)它用好(hao),是一件非常復雜的事情(qing)。
AI計(ji)算領域(yu),矩(ju)陣執行過(guo)程(cheng)(cheng)需(xu)要保證數據到位,而整個數據搬移過(guo)程(cheng)(cheng)是計(ji)算優(you)(you)化(hua)的核心。處(chu)理(li)器(qi)跟底軟團隊需(xu)要與算法和(he)業務專家聯合(he)優(you)(you)化(hua),才能(neng)發揮(hui)出處(chu)理(li)器(qi)的高性能(neng)。
王曉雷現場公(gong)布了昇騰未來進一步全(quan)(quan)面開源(yuan)(yuan)的關鍵節(jie)點,包括9月(yue)30日算子庫全(quan)(quan)部開源(yuan)(yuan)、12月(yue)30日CANN全(quan)(quan)量開源(yuan)(yuan)、2026年(nian)起解決方(fang)案配套產品上市即開源(yuan)(yuan)。
▲華(hua)為昇騰(teng)處理器產(chan)品總經理王(wang)曉雷
3、?云集成電路季宇:10萬元跑滿血版DeepSeek
?云(yun)集成電路(lu)創(chuang)始?&CEO季宇拋(pao)出一個(ge)問題:誰困住了AI產(chan)業?
他的(de)答案是(shi)大(da)(da)型(xing)機(ji)投資(zi)回(hui)報率。超節點化(hua)、大(da)(da)型(xing)機(ji)化(hua)的(de)成本(ben)門檻巨(ju)大(da)(da),但(dan)隨著大(da)(da)模(mo)型(xing)內存需求接近(jin)DDR/LPDDR的(de)甜(tian)點,高(gao)質量模(mo)型(xing)的(de)硬件系統(tong)平民化(hua)曙(shu)光已(yi)現(xian)。
其概念原型產(chan)品大模型一體機“褐蟻”采用5090級(ji)算力+TB級(ji)高(gao)帶(dai)寬(kuan)DDR5,能以10萬(wan)元(yuan)成本運(yun)行DeepSeek R1/V3 671B FP8,對話(hua)速度超過20TPS,20K上下文prefill在18秒以內。
集群(qun)概念驗證方案“蟻群(qun)”可將超(chao)(chao)過40臺“褐蟻”機器組合作為decode節點,prefill節點采用4根(gen)SSD替(ti)代(dai)DDR,總(zong)成本為300萬~500萬元(yuan),以約1~2臺8卡超(chao)(chao)算的(de)(de)價格,實(shi)現20倍(bei)于1~2臺超(chao)(chao)算的(de)(de)并發(fa)能力,提(ti)供(gong)接近(jin)DeepSeek公有云的(de)(de)性價比。
行云(yun)希望通過其(qi)原型(xing)概念產品,呈現DDR/Flash滿足大模型(xing)推理需(xu)求的潛力(li),并通過芯片產品,將頂配大模型(xing)的硬件成本降(jiang)低到萬元甚至千元級(ji)價位(wei),推動AI普惠。
▲?云集成電路創始(shi)?&CEO季宇(yu)
4、奎芯科技唐睿:Chiplet將加快國產芯片研發
當前AI革(ge)命與過往(wang)互(hu)聯網產(chan)業(ye)有明(ming)顯差異(yi),利(li)潤高度向硬件環節傾斜(xie)。奎芯科(ke)技(ji)聯合創(chuang)始(shi)?兼副總裁(cai)唐睿談道,隨著模(mo)型尺寸不斷變(bian)大(da),算力(li)需求飆升,為(wei)了爭奪AGI領域的(de)勝利(li),科(ke)技(ji)企業(ye)的(de)CAPEX大(da)幅增長且逐(zhu)漸取代OPEX成為(wei)主流趨勢(shi)。
AI領域存在(zai)芯片設計周期遠跟不上算力及模型發展需求(qiu)的矛盾。在(zai)唐睿看來(lai),基于Chiplet的設計能加快芯片研發迭代。
2021年-2030年處理器預計研發項目數(shu)量年化增長約9%,但基于Chiplet的(de)設(she)計年化增長率高達44%,預計2030年占比超(chao)一半。
對此,奎(kui)芯(xin)打(da)造了基于UCle標準接(jie)口IP的國(guo)產化完整解決方(fang)案(an),研發了兩(liang)代(dai)UCle IP,第一(yi)代(dai)為(wei)16GT/s,第二代(dai)為(wei)32GT/s,且在標準封(feng)裝實現(xian)。這些IP具有(you)高(gao)性能、低功耗(hao)、靈活性等優勢,能為(wei)芯(xin)片(pian)快速迭代(dai)提供支持。
▲奎芯(xin)科技聯合(he)創(chuang)始?兼副(fu)總裁唐睿(rui)
5、探微芯聯劉學:國產超節點如何實現異構互聯?
探微芯(xin)聯創始人、清(qing)華(hua)?學類(lei)腦計算(suan)(suan)研究中心劉學分享說,類(lei)腦計算(suan)(suan)與AI同(tong)源(yuan)異流,天(tian)生(sheng)具備超(chao)(chao)大(da)規(gui)模(mo)計算(suan)(suan)系統的通(tong)信(xin)基因(yin),與智算(suan)(suan)超(chao)(chao)節(jie)點的發展(zhan)趨勢(shi)十分吻(wen)合(he)。
探微將類腦集群技術遷移至GPU智算平臺,打造面向AI芯片的Scale-up完整互聯方案,實現了覆蓋通信協議、交換芯片/網內計算、軟件棧/集合通信庫、RAS機制與可維護機制、路由算法、超節點平臺、性能建模和異構互聯等關鍵技術。?
不過(guo),劉學認為,超節點通信不只(zhi)是(shi)技術堆疊。通信協(xie)議(yi)具有較強生態屬性(xing),需(xu)要廣泛的應用場(chang)景和(he)生態支持才能推廣。
從(cong)類腦(nao)集(ji)(ji)群(qun)體系結構的(de)(de)大量工程經驗(yan)積(ji)累,到探(tan)(tan)微通(tong)信(xin)互聯關鍵技術的(de)(de)不(bu)斷(duan)迭代,探(tan)(tan)微方(fang)(fang)案實現從(cong)底層到高層的(de)(de)計算(suan)(suan)(suan)和通(tong)信(xin)的(de)(de)全方(fang)(fang)位打(da)通(tong),能夠(gou)為智算(suan)(suan)(suan)超(chao)節點生態伙伴提供Scale-up通(tong)信(xin)協議系統(tong)級解決方(fang)(fang)案、異構融合及智算(suan)(suan)(suan)超(chao)節點萬卡集(ji)(ji)群(qun)工程方(fang)(fang)案。
▲探(tan)微芯聯創始(shi)人、清華?學(xue)類腦計算(suan)研究中心劉學(xue)
6、新華三劉善?:超節點是AI系統工程巔峰
新華三(san)集團AI服務器產品線(xian)研發部總監劉(liu)善?談道,大模型技(ji)術趨勢給算(suan)力基礎(chu)設施帶來(lai)了算(suan)力墻(qiang)、顯存(cun)墻(qiang)、通(tong)信墻(qiang)等挑戰,打造AI超節(jie)點(dian)成為必然趨勢。
這需要(yao)異構計算協同優化、高(gao)速互(hu)聯網絡(luo)、精(jing)密(mi)結(jie)構設計等基(ji)礎設施的深度集成,對軟(ruan)硬協同要(yao)求(qiu)高(gao),是AI系統工(gong)程的巔峰。
新華三設計了(le)兩款(kuan)超節點(dian)產品:整機柜(ju)超節點(dian)H3C UniPoD S80000和靈活部署超節點(dian)H3C UniPoD F80000。
S80000實現柜內卡(ka)間全互聯通信,互聯帶寬提升(sheng)8倍(bei),單(dan)(dan)機柜訓練性(xing)能(neng)相較(jiao)于單(dan)(dan)節(jie)點(dian)最高可提升(sheng)10倍(bei),單(dan)(dan)卡(ka)推理效(xiao)率(lv)提升(sheng)13倍(bei);F80000基(ji)于傳統(tong)AI服務(wu)器即可靈活擴展Scale-up網絡(luo),能(neng)夠實現MoE大規模訓練性(xing)能(neng)提升(sheng)35%以(yi)上(shang)。
未來,AI加(jia)速(su)卡將更加(jia)百花齊(qi)放,高(gao)(gao)帶寬低延遲(chi)的卡間高(gao)(gao)速(su)互聯網絡也(ye)將是(shi)必然趨(qu)勢。
▲新華三集團(tuan)AI服務器產品線研發部總監劉善?
四、數據流、低精度、稀疏化、全國產、Chiplet,AI芯片走向多路創新
在下午的(de)大(da)(da)模型AI芯片(pian)專題論壇上,上海交(jiao)通大(da)(da)學計算機(ji)學院教授、上海期智研究(jiu)院PI冷靜(jing)文分享了數據流體(ti)系(xi)架構如何(he)成(cheng)為新一代的(de)大(da)(da)模型加速(su)引擎。
隨后(hou),來自曦望Sunrise、愛(ai)芯元智、墨芯人工(gong)智能、江原科技(ji)、邁特芯、智源研究院(yuan)、北極雄(xiong)芯、Alphawave的(de)產業嘉賓分(fen)別發表主題演(yan)講,分(fen)享創新的(de)技(ji)術路徑與最(zui)新進展(zhan)。
1、上海交通大學冷靜?教授:數據流能提高大模型推理效率
上海交通(tong)大學計(ji)算機學院教授、上海期智研(yan)究(jiu)(jiu)院PI冷(leng)靜文認為(wei),數據流(liu)體(ti)系架構(gou)是大模型高效執(zhi)行研(yan)究(jiu)(jiu)的重(zhong)要方向,它通(tong)過數值壓縮(suo)與計(ji)算流(liu)調度的優化(hua),提升(sheng)推(tui)理(li)性能。
低位寬數值類型(xing)可(ke)顯著降低存(cun)儲開銷,提(ti)高計(ji)算效(xiao)率;而(er)向(xiang)量量化(hua)有望幫助大模(mo)型(xing)突破4bit的(de)表(biao)示(shi)極限。冷靜?教授團隊研(yan)發了面向(xiang)多元素(su)量化(hua)的(de)計(ji)算引(yin)擎VQ-LLM,通(tong)過三級緩存(cun)機制(zhi)和以碼本為(wei)中心(xin)的(de)計(ji)算流程優化(hua),實現性能與(yu)精(jing)度的(de)雙重提(ti)升。
新一代(dai)GPU架構正在(zai)逐漸DSA化,編程難度不斷(duan)增加。其團(tuan)隊已經(jing)在(zai)探索一種“Kernel Free”的(de)(de)編程模(mo)型、用(yong)“Register Pooling”降低共享內存帶來(lai)(lai)的(de)(de)開銷,并(bing)使用(yong)動態并(bing)行機(ji)(ji)制,最終形成基于代(dai)碼(ma)塊的(de)(de)數據流(liu)抽象機(ji)(ji)模(mo)型。項(xiang)目成果(guo)未來(lai)(lai)將(jiang)開源發布。
▲上海(hai)(hai)交通(tong)大學計算(suan)機(ji)學院教授(shou)、上海(hai)(hai)期智研(yan)究院PI冷靜文
2、曦望陳博宇:國產AI芯片破局,極致推理目標1分錢/百萬Token?
曦望Sunrise研(yan)發(fa)副總裁陳博(bo)宇(yu)認(ren)為(wei),大模型發(fa)展進入下半場,云端訓(xun)練算力向(xiang)高(gao)效推(tui)理傾斜。AI芯片高(gao)效推(tui)理是(shi)一(yi)場長期價(jia)值競賽(sai),降成本、降能耗(hao),性價(jia)比的(de)洼地(di)亟(ji)待填平(ping)。
曦望的下一代芯片采用單芯片高配比低(di)精度計算單元,大(da)模型推理性價比對標英偉達Rubin GPU。
在(zai)主流(liu)測試集(ji)中(zhong),NVFP4精(jing)度下運行(xing)DeepSeek-R1的表現(xian)已接近FP8,低(di)精(jing)度數據(ju)格式能顯著擴大數據(ju)吞(tun)吐,提升推理效率,從而降低(di)每Token成本。
曦望芯片軟(ruan)件生(sheng)態通(tong)用性(xing)良好。算子庫、工具鏈(lian)、通(tong)信庫均為(wei)全棧自研,主體功能模塊與(yu)CUDA對齊,支持各類主流(liu)開源模型(xing)的推理部(bu)署(shu),支持CUDA代(dai)碼無縫遷移和工作。
曦望芯(xin)片(pian)的應用(yong)形態分(fen)為一體機和超(chao)節(jie)點,是(shi)Scale-up/Scale-out互(hu)(hu)聯(lian)架(jia)構原生支持超(chao)節(jie)點產品。超(chao)節(jie)點支持PD分(fen)離和大EP部署、All-to-All互(hu)(hu)聯(lian)、面向千億級(ji)或萬億級(ji)參(can)數(shu)的多模態大模型(xing)推理(li)。
▲曦望(wang)Sunrise研(yan)發副總裁陳博宇
3、愛芯元智劉建偉:AI應用(大模型)需要重新設計原生AI芯片
愛芯(xin)元(yuan)智(zhi)聯合創(chuang)始?、副總裁劉建偉分享道,過去端側AI芯(xin)片主要跑傳統(tong)CNN模型(xing),場(chang)景明確,大(da)模型(xing)的(de)興起則提升(sheng)了(le)AI上限,應用場(chang)景更(geng)廣泛,有望(wang)引發成(cheng)本(ben)驅(qu)動型(xing)生產力革命。
在他看來,當AI程(cheng)序規模(mo)足夠(gou)大時,現有運行架構不(bu)是(shi)最高效的,值得(de)重新設計適合跑AI程(cheng)序的原生處理器。
端側(ce)和邊側(ce)長(chang)期受(shou)成本(ben)、功耗剛(gang)性約(yue)束,對(dui)高能效比AI處理器(qi)需求(qiu)迫切。這(zhe)驅使愛(ai)芯元智選擇從(cong)端側(ce)和邊緣側(ce)入手做(zuo)AI基建。
設計(ji)原(yuan)生AI處(chu)理(li)器(qi),需關(guan)注算子(zi)指令集和數據(ju)流DSA架構,兩者相輔(fu)相成。采用可(ke)編程數據(ju)流微架構可(ke)提升(sheng)能效(xiao)比(bi)。異構多核處(chu)理(li)器(qi)要(yao)保證由硬(ying)件來調度,以降低客戶開發與使用成本。
愛芯元智已打造了從(cong)工具鏈到芯片的(de)完整軟硬(ying)件體(ti)系,推動構(gou)建邊(bian)緣智能共同體(ti)。
▲愛芯元智聯合創始?、副總裁劉建偉
4、墨芯人工智能曾昭鳳:稀疏化讓AI計算“更聰明”
墨芯人工智能解決方案(an)總(zong)監曾(ceng)昭鳳(feng)談道,傳統硬件架(jia)構(gou)面臨性(xing)能提升困(kun)境,通過軟(ruan)硬一體(ti)方案(an)來(lai)解決算力(li)瓶頸(jing)已是業內公(gong)認的發展方向,稀(xi)疏(shu)化有望(wang)成(cheng)為(wei)破(po)(po)解算力(li)瓶頸(jing)的突破(po)(po)口。
稀疏計(ji)算是一(yi)種(zhong)“更聰明(ming)”的(de)AI計(ji)算方式,如人(ren)類大腦(nao)一(yi)般,僅啟動計(ji)算所必需的(de)神(shen)經元,減少冗余重復,提升有(you)效性能。
基于(yu)這(zhe)一(yi)認知,墨芯提出了(le)“權重稀(xi)(xi)疏(shu)化+激活稀(xi)(xi)疏(shu)化”的雙稀(xi)(xi)疏(shu)技術(shu),在相同硬件資(zi)源下實(shi)現高達32倍的稀(xi)(xi)疏(shu)率(lv),并(bing)協同設計(ji)了(le)配套的軟件方(fang)案。
從算法與軟件(jian)出發,墨芯打(da)造(zao)了相(xiang)應的硬件(jian)與架構,開發的計算卡(ka)已能在云(yun)端推理場景中加速CV、NLP及知識圖譜等(deng)多類任(ren)務。
▲墨芯(xin)人工智(zhi)能解決方案總監曾昭鳳(feng)
5、江原科技王永棟:構建(jian)全國產(chan)化AI芯片產(chan)業(ye)鏈
江原科(ke)技已(yi)構建(jian)貫(guan)通(tong)EDA工具、芯(xin)片(pian)IP、芯(xin)片(pian)設計、芯(xin)片(pian)制造、封裝測試的全國(guo)產化AI芯(xin)片(pian)產業(ye)鏈(lian)。
江原科技聯合創始?兼CTO王永(yong)棟(dong)認為,全國產路線已經成為行業共識,核心挑戰集中在工藝和(he)生(sheng)態(tai)上。他從工藝、架構(gou)、生(sheng)態(tai)層面探討了(le)國產芯片(pian)的突(tu)圍(wei)路徑(jing)。
工(gong)藝維度,國內(nei)(nei)AI芯片企業(ye)唯(wei)一的道路就是擁(yong)抱全國產(chan),具(ju)體路徑包括基于國內(nei)(nei)工(gong)藝特點進行(xing)協同優化(hua)、系(xi)統(tong)集成(cheng)創新(xin)。
架構維度,需要向AI定制傾斜,通過(guo)拆解AI算法將其(qi)中(zhong)占比高、對效率影響(xiang)大的部分進行(xing)硬(ying)件優化。
生態維度(du),從降(jiang)低客戶使用門檻、發(fa)揮本土化優勢打造(zao)性能(neng)長板、擁抱(bao)開(kai)源切(qie)入(ru)。
▲江(jiang)原(yuan)科技聯合創始?兼(jian)CTO王(wang)永(yong)棟
6、邁特芯李凱:突破端側大模型芯片三個關鍵痛點
在邁特芯主任工程師李凱(kai)看(kan)來(lai),端(duan)側AI場景正從“離(li)身(shen)智(zhi)能”向“具身(shen)智(zhi)能”進化,這離(li)不(bu)開端(duan)側芯片的(de)支持。端(duan)側大模型芯片(LPU)需(xu)要滿(man)足低功耗(hao)、高token數、低成本(ben),這正是痛(tong)點所在。
邁特(te)芯LPU采用(yong)的3D-DRAM解決(jue)方案可大(da)幅提升(sheng)帶寬(kuan),以滿(man)足端側大(da)模型需求。該(gai)方案采用(yong)了針對大(da)模型算(suan)子優化(hua)的DSA設計(ji)(ji)和自研立方脈動陣(zhen)列架構,基(ji)于多項技術(shu)優化(hua),實現計(ji)(ji)算(suan)利用(yong)率和內存帶寬(kuan)利用(yong)率最大(da)化(hua)。
演示中(zhong),基(ji)于邁特芯LPU推理(li)卡可實現大(da)語(yu)言模型端到端部署,帶寬利用率(lv)75%、性能75tokens/s,性能和能效達到國際領(ling)先水平。
邁特芯針對泛端側(ce)大(da)模型(xing)(xing)硬件產品(pin)、端側(ce)大(da)模型(xing)(xing)硬件產品(pin)和推理一體機三類場(chang)景布局產品(pin),三個市場(chang)的總空(kong)間可達萬億(yi)級。
▲邁(mai)特(te)芯(xin)主任(ren)工程(cheng)師李凱(kai)
7、智源研究院鄭楊:統一編譯器給OpenAI Triton語言補短板
北京(jing)智(zhi)源??智(zhi)能(neng)研究(jiu)院AI編譯器專家(jia)鄭楊(yang)分享說,OpenAI的Triton語(yu)言已(yi)成為業內(nei)公認的、繼(ji)CUDA后第二大流行的AI算(suan)子開發(fa)語(yu)言,但其(qi)也有(you)明顯(xian)弱勢:需要(yao)在(zai)開發(fa)效率和性(xing)能(neng)之間權衡,跨(kua)芯(xin)片的可移(yi)植(zhi)性(xing)和性(xing)能(neng)不足(zu),治(zhi)理與(yu)生態(tai)面臨局限性(xing),以(yi)及(ji)版本分散等。
為此,智源構(gou)建(jian)了面(mian)向多元AI芯(xin)片(pian)的統一編譯器——FlagTree。
FlagTree基于硬件(jian)感知進(jin)行了編(bian)譯指導優化,允(yun)許程序員通過注釋嵌入硬件(jian)優化提(ti)示(shi)flagtree_hints,具有使用成(cheng)本低、生態兼(jian)容好、可移植性(xing)強等特(te)點。
同時,該編(bian)譯(yi)器(qi)在C++運行時進行了優化,提供從C++調(diao)用Triton內核的方法,從而節省Wrapper耗時,整體降低(di)80%以(yi)上,與CUDA接(jie)近(jin)。
▲北京智源??智能研究院AI編譯(yi)器(qi)專家鄭(zheng)楊(yang)
8、北極雄芯徐濤:大模型推理落地有效降本迫在眉睫
截至2025年(nian)6月,中國日均tokens消(xiao)耗(hao)量突破30萬億,比(bi)2024年(nian)增長300+倍,且依然處(chu)于高速增長期。而(er)大模(mo)型應用(yong)商(shang)業化閉(bi)環任重道遠(yuan),一方(fang)面(mian)C段(duan)訂(ding)閱付費較難,B端API調(diao)用(yong)收費與美國相比(bi)有(you)數量級的差(cha)距(ju),另一方(fang)面(mian)國內(nei)算力成本并不優于美國。
北(bei)極(ji)雄芯(xin)聯創、副(fu)總(zong)裁徐濤談(tan)道,當前中(zhong)國大模型應用落地(di)商(shang)業(ye)化(hua),解決成本問(wen)題(ti)至關重要(yao)。而受制于各(ge)類制裁,面對高速(su)增長的(de)(de)算(suan)力、存(cun)儲容量、內(nei)(nei)存(cun)帶寬的(de)(de)“不可兼得三角”,國內(nei)(nei)上下游(you)企業(ye)亟需共同(tong)開展架構創新。
在(zai)云端推(tui)(tui)理(li)場景,北極雄芯(xin)將在(zai)近(jin)期推(tui)(tui)出面向Decode環節的(de)專用(yong)加速方案,通過Chiplet+3D堆疊的(de)近(jin)存計算技術大幅(fu)降低推(tui)(tui)理(li)成(cheng)本至少一(yi)個數量(liang)級,相比主流GPU芯(xin)片提升(sheng)10倍以上性價比。
在(zai)端(duan)側AI領(ling)域,北極雄芯的(de)啟明(ming)935系列芯粒通過Chiplet靈活(huo)組合應(ying)用,為主機廠提(ti)供AI Box、艙駕一體、高階(jie)智駕等(deng)不同(tong)擋次(ci)應(ying)用的(de)解決方案(an)。
▲北(bei)極雄(xiong)芯聯創、副(fu)總裁徐濤
9、Alphawave鄧澤群:高速連接市場猛增,Chiplet是變革路徑
Alphawave戰略客戶銷售經理鄧澤群談道,高速(su)連(lian)接的(de)市場規模2023年(nian)(nian)接近(jin)100億美(mei)元,預計2026年(nian)(nian)接近(jin)180億美(mei)元,年(nian)(nian)復(fu)合(he)增長率達到20%。
這背后的推(tui)動力(li)就是數據(ju)中(zhong)心(xin)建設,其對數據(ju)的傳輸、存儲、處理需(xu)求爆炸,數據(ju)帶(dai)寬(kuan)每2~3年翻一倍。
生(sheng)成式AI正(zheng)在重新(xin)定義計算和(he)連(lian)接(jie)。他預測ChatGPT背后下一代模型的參(can)數(shu)規模或達到(dao)百萬億級別,促使云服務商(shang)建設更高規格的數(shu)據中心。
鄧澤群(qun)認為(wei),新計算技術的變革(ge)路(lu)徑(jing)是Chiplet,以及為(wei)云服(fu)務(wu)商進行定制,以滿足大(da)語言模型的需求。
伴隨AI產業(ye)發展(zhan),Alphawave的業(ye)務體系已(yi)經從IP供應擴展(zhan)到高速連接技術的垂直集成方案。
▲Alphawave戰略客戶銷(xiao)售經理鄧(deng)澤群(qun)
結語:國產AI芯片掀開落地新篇章
8年(nian)來,智東西(xi)、芯東西(xi)持續(xu)對(dui)AI芯片全(quan)產(chan)業鏈進行追(zhui)蹤報(bao)道,見證了AI芯片產(chan)業及智能(neng)革命浪潮的(de)發(fa)展,以及許多(duo)AI芯片團隊的(de)厚積(ji)薄發(fa)。
多個知名市場調研(yan)機構的(de)數據顯示,2024年中(zhong)國AI芯(xin)片出(chu)貨量顯著提升,華為昇騰(teng)、阿(a)里平頭哥、昆侖芯(xin)、寒武紀、摩爾(er)線程、燧原科(ke)技(ji)、中(zhong)昊(hao)芯(xin)英、壁(bi)仞科(ke)技(ji)、沐(mu)曦(xi)股份、太初元碁等(deng)企業的(de)AI芯(xin)片均已走向量產交付,并在性能方面(mian)縮短與國際先進水平的(de)差距。龐大的(de)國內AI基建市場,正向國產AI芯(xin)片敞開(kai)大門。
與此同時,國(guo)產AI芯片(pian)正迎來政策紅(hong)利期。今年8月,國(guo)務(wu)院印發《關于深入實施(shi)“人(ren)工(gong)(gong)智能(neng)+”行動的(de)意見》,在強化基礎支撐能(neng)力(li)方面,提到(dao)強化智能(neng)算力(li)統籌,支持AI芯片(pian)攻堅創新(xin)與使能(neng)軟件生態(tai)培(pei)育,加快超大規模智算集群技術突(tu)破和工(gong)(gong)程落地(di)。
在(zai)AI產業趨(qu)勢(shi)(shi)、地緣博(bo)弈等(deng)復雜因素的(de)影(ying)響(xiang)下,AI芯片(pian)(pian)自主可控勢(shi)(shi)在(zai)必行,國(guo)產模型與國(guo)產芯片(pian)(pian)的(de)適配有望(wang)進一(yi)步增強,AI芯片(pian)(pian)及算力基礎設施技(ji)術仍有巨大的(de)創新(xin)空間(jian)和市場前景。





















