芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
芯東西9月18日報道,今日,在華為全聯接(jie)大會2025開幕式上,華為副董事長、輪值董事長徐直軍發表主題演講,公布華為昇騰AI芯片4年5款產品路線圖,并正式發布全球最強算力超節點和集群。
華為在今年第一季度推出昇騰910C AI芯片,預計將于2026年第一季度推出昇騰950PR,2026年第四季度推出昇騰950DT,2027年第四季度推出昇騰960,2028年第四季度推出昇騰970。
▲昇騰芯片路線圖(芯東西制表)
本次大會,華為推出基于靈衢和超節點架構的全新產品,包括全液冷數據中心AI超節點Atlas 950 SuperPoD、企業級風冷AI超節點服務器Atlas 850和Atlas 860、AI新一代標卡Atlas 350、業界首個通算超節點Taishan 950 SuperPoD等。
其中Atlas 350標卡采用的便是下一代昇騰950PR芯片。
一、4款全新AI芯片:大內存、高帶寬、強算力
昇騰950芯片架構新增支持低精度數據格式,FP8、MXFP8、HiF8精度(du)下AI算力可(ke)達(da)(da)到(dao)1PFLOPS,MXFP4精度(du)下AI算力可(ke)達(da)(da)到(dao)2PFLOPS,互聯帶寬提(ti)升(sheng)2.5倍至(zhi)2TB/s。
該系列芯片還提升了向量算力配比,支持SIMD/SIMT,并(bing)支持更精細粒度內存訪問(512B→128B)。
其支持華為自研HBM。昇騰950PR采用的是HiBL 1.0,內存容量為128GB、帶寬為1.6TB/s;昇騰950DT采(cai)用(yong)的(de)是(shi)HiZQ 2.0,內存容量為144GB、帶寬為4TB/s。
昇騰950PR提(ti)升(sheng)了(le)推(tui)理Prefill性能,支持FP8、MXFP8、HiF8、MXFP4,并(bing)優化了(le)推(tui)薦業務性能。
昇騰950DT提升(sheng)了(le)推理(li)Decode性(xing)能(neng),支(zhi)持FP8、MXFP8、HiF8、MXFP4;還提升(sheng)了(le)訓練性(xing)能(neng),支(zhi)持FP8、MXFP8、HiF8。
昇騰960大(da)幅提升訓練和推理性能,算力、內(nei)存(cun)容(rong)量、內(nei)存(cun)帶(dai)寬、互聯端口(kou)數(shu)均翻(fan)倍,內(nei)存(cun)容(rong)量升級到288GB,內(nei)存(cun)帶(dai)寬為9.6TB/s,支持(chi)40個互聯端口(kou),支持(chi)自研HiF4數(shu)據格式(最優4bit精度(du)實現)。
該(gai)芯片在FP8精(jing)(jing)度(du)下AI算(suan)力達到2PFLOPS,FP4精(jing)(jing)度(du)下AI算(suan)力達到4PFLOPS。
昇騰970的訓(xun)練(lian)和推理性(xing)能繼續(xu)翻倍,FP8精度下AI算(suan)力(li)達到4PFLOPS,FP4精度下AI算(suan)力(li)達到8PFLOPS,內存帶(dai)寬為14.4TB/s,互聯帶(dai)寬為4TB/s。
總體而(er)言,昇騰(teng)芯片迭(die)代路徑是支持更(geng)(geng)多數值類(lei)型、升級(ji)更(geng)(geng)大內存容量與帶(dai)寬、實現更(geng)(geng)高算(suan)力、更(geng)(geng)加易用。
二、全球最強超節點集群來了!支持百萬卡互聯
“算力過去是,未來也將繼續是人工智能的關鍵,更是中國人工智能的關鍵,”徐直軍談道,“基于中國可獲得的芯片制造工藝,華為努(nu)力(li)打造「超節點+集群」算力(li)解決方案,來滿足(zu)持續增長的算力(li)需求。”
超節點在物理(li)上(shang)由多臺機(ji)器組成,但邏輯上(shang)以(yi)一臺機(ji)器學習(xi)、思考、推理(li)。
徐直軍宣布,新發布的華為Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點,分別支持8192張及15488張昇騰卡,在卡規模、總算力、內存容量、互聯帶寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節點。
基于超節點,華為同時發布了全球最強超節點集群,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規模分別超過50萬卡和達到百萬卡。
徐(xu)直軍說,基(ji)于(yu)全球最強(qiang)算力的(de)超節點和集群,華(hua)為對于(yu)為人工智能的(de)長期快(kuai)速發(fa)展提供可(ke)持(chi)續且(qie)充(chong)裕算力,充(chong)滿(man)信心。
同時,華為率先把超節點技術引入通用計算領域,發布全球首個通用計算超節點TaiShan 950 SuperPoD,結合GaussDB分布式數(shu)據(ju)庫,能徹底取代各(ge)種(zhong)應用場景的(de)大型(xing)機(ji)和小型(xing)機(ji)以及Exadata數(shu)據(ju)庫一體機(ji),將(jiang)成為各(ge)類大型(xing)機(ji)、小型(xing)機(ji)的(de)終結者。
華為基于三十多年構筑的聯接技術能力,通過系統性創新,突破了大規模超節點的互聯技術巨大挑戰,開創了面向超節點的互聯協議靈衢(UnifiedBus)。
徐直軍宣布華為將開放靈衢2.0技術規范,歡迎產業(ye)界伙伴(ban)基于靈衢(qu)研發相(xiang)關產品(pin)和部件,共建靈衢(qu)開放生態。
華(hua)為(wei)董事、ICT BG CEO楊(yang)超斌說,基于靈衢互聯協議(yi),華(hua)為(wei)開創了超節點架構,可(ke)(ke)將多(duo)臺物理(li)機(ji)器(qi)深度(du)互聯,實現(xian)邏(luo)輯(ji)層(ceng)面(mian)像一臺機(ji)器(qi)一樣學習、思考與(yu)推理(li),重新(xin)定義了高效、穩(wen)定、可(ke)(ke)擴展的大(da)規(gui)模有(you)效算(suan)力新(xin)范式。
華為Atlas 900 A3 SuperPoD超節點(dian)至今(jin)已累(lei)計部(bu)署300多套,服務(wu)于互(hu)聯網、金(jin)融、運營(ying)商、電力、制造等(deng)行業的20多個客戶。
華為(wei)在本次大會上(shang)推出基于靈衢和超(chao)(chao)節(jie)點架構的(de)全新(xin)產品(pin),包(bao)括全液冷數據中心AI超(chao)(chao)節(jie)點Atlas 950 SuperPoD、企(qi)業級(ji)風冷AI超(chao)(chao)節(jie)點服務(wu)器Atlas 850和Atlas 860、AI新(xin)一代標卡Atlas 350、業界首個通(tong)算超(chao)(chao)節(jie)點Taishan 950 SuperPoD等。
Atlas 950 SuperPoD,被稱作“面向超大型AI計算任務的最佳選擇”,從基礎器件、協議算法到(dao)光電技術,實現系統級創新突(tu)破。
通過正交架構,Atlas 950實現零線纜電互聯,采用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模塊液冷可靠性提升1倍。
其創新的UB-Mesh遞歸直連拓撲網絡架構,支持單板內、單板間和機架間的NPU全互聯,以64卡為步長按需擴展,最大可實現8192卡無收斂全互聯。
Atlas 850,是業界首個企業級風冷AI超節點服務器,內(nei)部搭載8張昇騰(teng)NPU,有效(xiao)滿(man)足(zu)企業模型后訓練、多場景推理(li)等需求。
該服務器支持多柜靈活部署,最大可形成128臺1024卡的(de)超(chao)節(jie)點(dian)集群(qun)。這是目前業內唯一可(ke)在(zai)風冷機房(fang)實現超(chao)節(jie)點(dian)架構的(de)算力集群(qun)。
Atlas 350標卡,采用最新的昇騰950PR芯片,向量算力提升2倍,支持更細粒度的Cacheline訪問,在推薦推理場景可實現2.5倍性能提升,且(qie)單卡即可運行。
Atlas 350支持4個(ge)靈衢端口互聯(lian),實現算力、內存等(deng)資源池化,讓更大參數(shu)模型、更低時延應用可以在標(biao)卡上(shang)實現。
TaiShan 950 SuperPoD,是華為推出的業界首款通算超節點,具備370納秒超低時延、2.8T超(chao)大(da)帶寬和內存池(chi)化能(neng)力,能(neng)大(da)幅提(ti)升數據庫、虛(xu)機(ji)熱(re)遷移和大(da)數據場(chang)景等(deng)業務(wu)性能(neng),為(wei)通算性能(neng)提(ti)升開辟全新路徑。
結語:全面開放超節點技術,推動協同創新
華為宣布全面開(kai)放超節點(dian)技術(shu)(shu),與產業界共(gong)享技術(shu)(shu)紅利(li),共(gong)同推動(dong)超節點(dian)技術(shu)(shu)走(zou)向普惠與協同創新。
首先,開(kai)放靈衢協議和超節點(dian)參(can)考架(jia)構,允(yun)許產業界基于技術規范自(zi)研(yan)相關產品或部(bu)件。
其次,全面開放超(chao)節(jie)點基礎硬(ying)件,包括NPU模組(zu)、風冷刀片、液冷刀片、AI標卡(ka)、CPU主板(ban)和(he)級(ji)聯(lian)卡(ka)等不同形態的硬(ying)件,方便(bian)客戶和(he)伙伴進行(xing)增(zeng)量開發,設計基于靈(ling)衢的各種產品(pin)。
操作系統(tong)靈衢組件(jian)也將全部開(kai)源(yuan),組件(jian)代碼將陸續合(he)入openEuler等多個上游操作系統(tong)開(kai)源(yuan)社區(qu)。
用戶可以根據實際需(xu)求(qiu),將部分或全部源代碼集(ji)成到現有操作系(xi)統中,自行(xing)迭代維護版(ban)本(ben),也可以將整(zheng)個組件(jian)直接合(he)入現有操作系(xi)統,未來演進(jin)與開源社區版(ban)本(ben)同(tong)步。
同時,昇騰CANN全面開源(yuan)(yuan)開放,Mind系列組件也同步開源(yuan)(yuan),并優先支持PyTorch、vLLM等業(ye)界開源(yuan)(yuan)社區,加速開發者自主創新。
