智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影
在剛剛過去的7月份,國產模型迎來一波重磅開源。與以往不同的是,本次國內大模型玩家們開源模型的參數量成倍增長,達到數千億乃至萬億級別。這(zhe)不僅顯著提升了國產(chan)模型(xing)的能(neng)力上限,也為各行業智(zhi)能(neng)化轉型(xing)提供了新一代強大(da)的智(zhi)能(neng)基座。
然而(er),隨著模型體量不斷攀升,對應的基礎設施(shi)正面(mian)臨前(qian)所未有的挑戰。傳統(tong)集群架(jia)構(gou)在通信效率、I/O性能和系統(tong)擴展(zhan)性等方(fang)面(mian)逐漸暴露(lu)出(chu)瓶頸,已(yi)難以滿足當前(qian)開源模型的部署需求(qiu)。
在這樣的背景下,各類“超節(jie)點”方(fang)案應運而(er)生。作為面(mian)向大模(mo)型的(de)新一代基(ji)礎設(she)施架構(gou),超節點通過(guo)在單系統內部集成更(geng)多GPU資源,并顯著優(you)化節點間(jian)的(de)通信性能,有效突破了傳統架構(gou)在大規(gui)模(mo)分(fen)布式計算中的(de)性能瓶頸。
昨日,浪潮信息正式發布了其面向(xiang)萬億參(can)數(shu)大模型(xing)的超節(jie)點AI服(fu)務(wu)器——“元(yuan)腦SD200”。得益于浪潮信(xin)息自研(yan)的多主機(ji)(ji)低延遲內存語義通信(xin)架構(gou),SD200在單機(ji)(ji)內集成(cheng)64路加速計(ji)算芯(xin)片,單機(ji)(ji)支(zhi)持DeepSeek、Qwen、Kimi、GLM四大國(guo)產(chan)頂級開(kai)源模型(xing)同時(shi)運行(xing),以及多智能體實時(shi)協(xie)作與按需(xu)調用。

浪潮信息一直是開放計算生態的積極推動者,本次其此次推出的超節點方案采用了OCM+OAM的(de)開(kai)放架構設(she)計,兼容多(duo)款本土GPU芯片與大(da)部分(fen)主流AI框(kuang)架,目前已率先實現商用。
在(zai)國產開源模型奮力追趕智(zhi)能上限之際,浪潮(chao)信息的(de)開放超節點,有望成為承載萬億參數模型的(de)重要底座之一。
一、廠商競相追逐超節點,開放架構需求凸顯
在探討“超節點”對(dui)行(xing)業所帶來的(de)深遠影(ying)響之前,我(wo)們有必要先厘清這一技(ji)術(shu)誕生的(de)背景。
首先,模型規模的持續膨脹正在逼近(jin)現(xian)有硬件的承載極限。大(da)模型(xing)加速邁向萬億(yi)參數規模,同時(shi)上(shang)下文長度不斷(duan)擴(kuo)展,直(zhi)接推高了推理過程中的鍵(jian)值(zhi)緩存(KV Cache)需求。顯存與帶寬,正成為(wei)壓(ya)在AI基礎(chu)設施之(zhi)上(shang)的兩(liang)座(zuo)大(da)山。
與此同時,隨著大模型加速進入千行百業,推理型負載成為主流計算模式,而推理是一種高(gao)度通信(xin)敏(min)感的(de)計(ji)算過程。以Qwen3-235B模型(xing)為例,若要(yao)實現100 tokens/s的(de)(de)解碼速度,單(dan)個token需完(wan)成多(duo)達188次的(de)(de)All-to-All通信(xin),且每(mei)次通信(xin)的(de)(de)延(yan)遲必須控制在53微秒(miao)以內。
更不容忽視的是,Agentic AI的興起正在進一步拉高對計算系統的需求。具備自主規劃、多模態感知與連續執行能力的智能體,在執行任務時生成的token數量往往是傳統模型的數十倍甚至上百倍,動(dong)輒需要處理數(shu)十萬(wan)乃至數(shu)百萬(wan)token。
算力基礎設施面臨的上述三大關鍵挑戰,使其走到升級重構的臨界點。為了支撐萬億參數級模型的高效運行,構建高(gao)度集成、低(di)延(yan)遲、高(gao)帶寬(kuan)的Scale-Up(縱向(xiang)擴(kuo)展)系統,即通過構(gou)建一(yi)個(ge)更大的高速互連(lian)域、形成“超節點”,成為現(xian)實的技術選擇。

通過構建超低延遲的統一顯存空間,Scale-Up系統能將萬億級模型參數及激增的KV Cache整體容納于單一高速互連域內,保障了多芯片間高效協同執行,顯著減少跨節點通信開銷,從而大幅提升吞(tun)吐速(su)度并(bing)降低通信延(yan)遲,實現降本增效。
AI算(suan)力需求側(ce)的(de)(de)變化,正(zheng)驅動(dong)供給側(ce)的(de)(de)廠商們爭相布局前(qian)沿的(de)(de)Scale Up方案。2024年,英偉(wei)達(da)在(zai)GTC大會上提出SuperPod的(de)(de)概念;今年,國內廠商的(de)(de)方案更是(shi)將超節點引(yin)入大眾視野。
當前,業界在超節點技術方案的選擇上,存在多種路徑。在浪潮信息看來,超節點要根據客戶應用需求來選擇技術路線,要給客戶提供更多算力方案的選擇,核心策略是“開放(fang)架構”。
基于開放架構設計的超節點,能夠支持多樣化芯片、開放AI框架及主流開發工具,在保障高性能、低延遲的同時,實現跨平臺的良好兼容與靈活擴展,推(tui)動AI基礎設施真正走向(xiang)開(kai)放(fang)、可(ke)持續的發展路徑。
二、單機運行四大開源模型,全面支持主流框架
昨日,浪潮(chao)信息在2025開放計(ji)算技術大(da)會上正(zheng)式發布(bu)元腦SD200超節點AI服務器。作為(wei)開放計(ji)算領域(yu)的(de)(de)重要風向標,該大(da)會一向聚焦推動算力基礎設施的(de)(de)開放與(yu)協(xie)同,而(er)SD200正(zheng)是這一理念的(de)(de)典型體現。
SD200基(ji)于OCM(開放算(suan)力模組(zu))與OAM(開放加速模塊)兩大(da)架構打(da)造。OCM標準由中(zhong)國電子(zi)技術標準化研究院發起(qi),浪潮(chao)信息、百(bai)度等18家(jia)算力產(chan)業上下游企業共(gong)同參與編制。
該架構(gou)圍繞CPU和內存進行解耦設計,具備高度模塊(kuai)化(hua)與(yu)標準化(hua)優勢,支持(chi)系統供電、管理、風扇(shan)等組件(jian)的獨立升級與(yu)更換,大幅提(ti)升了服務器(qi)的靈活性(xing)與(yu)可維護性(xing)。同時(shi),OCM支持(chi)“一機(ji)多芯”,可快速適配Intel、AMD、ARM等多種計算平臺。
OAM則由(you)開放計(ji)(ji)算項目(OCP)社區推動,是(shi)專為高性能計(ji)(ji)算與AI加速場景設(she)計(ji)(ji)的開放模塊標(biao)準(zhun)。
該架構統一(yi)(yi)了(le)加速(su)(su)卡的(de)尺寸、電氣(qi)接口和散熱(re)設計,使來(lai)自不同廠(chang)商的(de)GPU、NPU等AI加速(su)(su)器(qi)可在同一(yi)(yi)系統中協同運行,并通過高速(su)(su)互聯技術實(shi)現加速(su)(su)卡之間(jian)的(de)低延遲直連,有效滿足大模型訓練與(yu)推理對帶寬的(de)極(ji)致(zhi)要求。
浪潮信息將OCM與OAM架(jia)構有機融合(he),為(wei)業界提(ti)供了一種開(kai)放的超節點技術(shu)架(jia)構。
不過,光有“開放”的特性,仍不足以讓一款開放超節點方案獲得廣泛采用,性(xing)能同樣至關重要。
在開放計算技術大會現場,浪潮信息副總經理趙帥曬出了SD200超節點在真實部署環境下實現的性能。在經過軟硬件的系統協同優化后,SD200超節點滿機運行DeepSeek R1全參模型推理性能提升比為370%,滿機運行Kimi K2全參模型推理性能提升比為170%。

SD200超節點配備高達4TB的顯存,能夠同時容納DeepSeek、Qwen、Kimi、GLM等多個旗艦級開源模型。趙帥稱,這樣的顯存配置具備前瞻性,不僅可滿足當前萬億級模型的部署需求,甚(shen)至為未來可能(neng)出現的(de)2萬億、3萬億參(can)數(shu)模(mo)型預留(liu)了(le)充足空間。
然而,在打造(zao)這一方案時,浪潮信息(xi)并未一味追求(qiu)(qiu)技術(shu)堆疊,而是更注重實際落(luo)地的(de)可(ke)行性。正如浪潮信息(xi)趙帥在發(fa)布會后與智東西等媒體交流時所提到的(de)——客(ke)戶的(de)核心(xin)訴求(qiu)(qiu)是“能(neng)否(fou)快(kuai)速(su)部署、快(kuai)速(su)上業務、上應(ying)用”。
基于這一判斷,SD200在使用便利性上進行了優化設計。例如,采用風冷(leng)散熱,企業無需改造機房,即可靈活部署;在互連方案上,則選擇了更為成熟穩健的全銅電互連,提升了(le)系統(tong)穩定性,同(tong)時降低了(le)終端用戶的運維復雜度和成本。
此外,SD200超節點還全面兼容當前主流的開源大模型計算框架(如PyTorch,已支持2200+算子),可實現新模(mo)型(xing)的無縫遷移與“Day 0”上(shang)線,為企業構建(jian)AI應用(yong)提供了即開即用(yong)的基(ji)礎平(ping)臺(tai)。
三、軟硬協同優化實現性能突破,揭秘開放超節點背后創新
這樣(yang)一(yi)套開放超節點方案背后,是(shi)浪潮(chao)信息在(zai)融合架(jia)構和軟硬件(jian)協同方面長達十余年的(de)深厚積累。
趙帥(shuai)分(fen)享道,自(zi)2010年起(qi),浪(lang)潮信息持續推進融合(he)(he)架(jia)(jia)構演(yan)進,從最初(chu)的(de)供電、散熱等非IT資(zi)源(yuan)的(de)整(zheng)合(he)(he),到存(cun)儲、網(wang)絡等資(zi)源(yuan)池化(hua)(hua),再(zai)到最新融合(he)(he)架(jia)(jia)構3.0系(xi)統實現(xian)了(le)計算、存(cun)儲、內存(cun)、異構加(jia)速等核心IT資(zi)源(yuan)徹底解耦和(he)池化(hua)(hua)。
這沉淀下來的芯片(pian)共(gong)享內存數據(ju)、統一編址技術、池化(hua)、資源動態調度等技術,在今天(tian)的超節點系統中得(de)以延續和應用,顯(xian)著提升了(le)系統的適(shi)配(pei)速(su)度(du)與(yu)商用效率。
此外,浪潮信息并非單純的硬件廠商,其在大模型領域同樣具備深度布局——早在2021年即發布首個中文巨量模型“源1.0”,其參數規模達(da)2457億(yi),并持續在模型訓練、推理優(you)化(hua)和軟硬件(jian)協(xie)同方(fang)面積累經驗。這些能力也為SD200這樣的超(chao)節(jie)點(dian)方(fang)案提供了堅實基礎。
為突破萬億大模型的帶來的顯存壓力,SD200超節點基于浪潮信息自主研發的開放總(zong)線(xian)交換(Open Fabric Switch)技術,首創多主機三維(wei)網格系(xi)統架構(3D Mesh)。在(zai)這一(yi)架構(gou)下,64顆本土GPU能夠以高速、低延遲的方式實現互連。
更進一步,SD200通過GPU虛(xu)擬映射等底層創新,解決了(le)多主機環境下統一(yi)編(bian)址的難題,將顯(xian)存(cun)統一(yi)地(di)址空間擴增8倍,顯(xian)存(cun)容量達4TB,配合64TB系統內存(cun),為超大模型提供了(le)充足的KV緩存(cun)資(zi)源。
這意味著,不論是在模型訓練還是推理過程中,開發者都能像調用單機GPU一樣,靈活調度整個系統中的算力與顯存資源,極大簡化了工程(cheng)復(fu)雜度。實(shi)測(ce)結果表明,在(zai)推理(li)過(guo)程常(chang)見的小數據包通信(xin)場景中,全規(gui)約(All Reduce)性能表現(xian)優(you)異,顯(xian)著提(ti)升計算(suan)與通信(xin)效率。
在系統層面,浪潮信息圍繞萬億參數大模型計算密集、通信敏感的特性,構建起一整套軟硬協同優化(hua)的系統方案(an),將(jiang)64卡超節點的算力潛能釋放(fang)到極致。

一方面,浪潮信息開發了智能(neng)總線管理(li)系統(tong),可實現超(chao)節點64卡全(quan)局最優路由的自動創建與(yu)管理。該系統不僅(jin)支持靈活拓撲切換,還能根據業(ye)務負載動態進行(xing)資(zi)源切分與(yu)調度,為不同類型的大模型任務提供定(ding)制(zhi)化的算力編排能力。
針對All Reduce、All Gather等典型(xing)通信算子(zi)的不同數據(ju)包規模,系統(tong)設計了(le)細粒度(du)、多層級的通信策略,進一步壓縮通信路徑的延遲。
此外,SD200還引入了開(kai)放(fang)的PD分離(li)框架(jia),將預填充(chong)-解(jie)碼(Prefill-Decoder)環節解(jie)耦,支持異步(bu)KV Cache高效傳輸,并允許針(zhen)對(dui)不(bu)(bu)同模型并行需求制定差異化策略,兼(jian)顧性能與(yu)兼(jian)容性。這一(yi)設計不(bu)(bu)僅提升了(le)系統性能,也保障了(le)對(dui)多元算(suan)力(li)架構的適配能力(li),加強了(le)計算(suan)與(yu)通信之間的協(xie)同優化。
通過軟硬協同系統(tong)創新(xin),SD200成(cheng)功實現了(le)縱(zong)向擴展,幫助本土AI芯片突破了(le)性(xing)能(neng)邊界,在大模(mo)型(xing)場景中展示出優異(yi)的性(xing)能(neng)表現。
結語:開放超節點,帶動產業鏈協同創新
在(zai)趙帥(shuai)的分(fen)享中,智東西(xi)感受到了浪潮(chao)信息對(dui)“以應(ying)用為導向”的堅持。作為系(xi)統(tong)廠商,他們(men)與終端(duan)客戶(hu)的距離(li)更近,也(ye)更能體會到實際(ji)應(ying)用場景(jing)的痛點(dian)。也(ye)因此(ci),趙帥(shuai)稱(cheng),超節點(dian)架構本(ben)質上是系(xi)統(tong)化(hua)思維的產物,它不是某一個點(dian)的突破,而是在(zai)現有技術(shu)、生(sheng)態和成本(ben)約束下,從系(xi)統(tong)層面去打破芯(xin)片本(ben)身(shen)的性能邊(bian)界,最大化(hua)用戶(hu)價值。
超節點(dian)的(de)發展也為中(zhong)國本(ben)土產(chan)業鏈(lian)提供了(le)發展機(ji)遇——高速(su)連接器、線纜、板材、電源(yuan)等上下游產(chan)業鏈(lian)廠商,都有(you)望這個過(guo)程中(zhong)找到屬(shu)于自己的(de)突破點(dian)。這不僅能加速(su)成本(ben)下降(jiang)和(he)技術普(pu)惠,更推動了(le)智(zhi)能基礎(chu)設施的(de)“平權(quan)化”。
放眼未(wei)來(lai),趙帥認為(wei),AI數(shu)據中心正從“機柜(ju)級密度(du)革(ge)命”邁向“數(shu)據中心級系統(tong)工程挑(tiao)戰(zhan)”,算力密度(du)將持(chi)續攀升,能源供給(gei)、冷卻方式和系統(tong)管(guan)理也(ye)隨之進入全面革(ge)新期(qi)。
從(cong)芯(xin)片到(dao)架構(gou),從(cong)系(xi)統到(dao)生(sheng)態,技術演進注定(ding)不會是一條單線(xian)道路(lu)(lu),而(er)是多路(lu)(lu)徑的協同創新。在這場(chang)關于(yu)未來(lai)的集(ji)體奔赴中(zhong),唯(wei)有持續開放(fang)、擁(yong)抱合作(zuo),才能構(gou)筑真(zhen)正普(pu)惠、可(ke)持續的智能算力(li)基石。