单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

智東西（公眾號：zhidxcom）
作者 | 陳駿達
編輯 | 漠影

在剛剛過去的7月份，國產模型迎來一波重磅開源。與以往不同的是，本次國內大模型玩家們開源模型的參數量成倍增長，達到數千億乃至萬億級別。這(zhe)不僅顯著提升了國產(chan)模型(xing)的能(neng)力上限，也為各行業智(zhi)能(neng)化轉型(xing)提供了新一代強大(da)的智(zhi)能(neng)基座。

然而(er)，隨著模型體量不斷攀升，對應的基礎設施(shi)正面(mian)臨前(qian)所未有的挑戰。傳統(tong)集群架(jia)構(gou)在通信效率、I/O性能和系統(tong)擴展(zhan)性等方(fang)面(mian)逐漸暴露(lu)出(chu)瓶頸，已(yi)難以滿足當前(qian)開源模型的部署需求(qiu)。

在這樣的背景下，各類“超節(jie)點”方(fang)案應運而(er)生。作為面(mian)向大模(mo)型的(de)新一代基(ji)礎設(she)施架構(gou)，超節點通過(guo)在單系統內部集成更(geng)多GPU資源，并顯著優(you)化節點間(jian)的(de)通信性能，有效突破了傳統架構(gou)在大規(gui)模(mo)分(fen)布式計算中的(de)性能瓶頸。

昨日，浪潮信息正式發布了其面向(xiang)萬億參(can)數(shu)大模型(xing)的超節(jie)點AI服(fu)務(wu)器——“元(yuan)腦SD200”。得益于浪潮信(xin)息自研(yan)的多主機(ji)(ji)低延遲內存語義通信(xin)架構(gou)，SD200在單機(ji)(ji)內集成(cheng)64路加速計(ji)算芯(xin)片，單機(ji)(ji)支(zhi)持DeepSeek、Qwen、Kimi、GLM四大國(guo)產(chan)頂級開(kai)源模型(xing)同時(shi)運行(xing)，以及多智能體實時(shi)協(xie)作與按需(xu)調用。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

浪潮信息一直是開放計算生態的積極推動者，本次其此次推出的超節點方案采用了OCM+OAM的(de)開(kai)放架構設(she)計，兼容多(duo)款本土GPU芯片與大(da)部分(fen)主流AI框(kuang)架，目前已率先實現商用。

在(zai)國產開源模型奮力追趕智(zhi)能上限之際，浪潮(chao)信息的(de)開放超節點，有望成為承載萬億參數模型的(de)重要底座之一。

一、廠商競相追逐超節點，開放架構需求凸顯

在探討“超節點”對(dui)行(xing)業所帶來的(de)深遠影(ying)響之前，我(wo)們有必要先厘清這一技(ji)術(shu)誕生的(de)背景。

首先，模型規模的持續膨脹正在逼近(jin)現(xian)有硬件的承載極限。大(da)模型(xing)加速邁向萬億(yi)參數規模，同時(shi)上(shang)下文長度不斷(duan)擴(kuo)展，直(zhi)接推高了推理過程中的鍵(jian)值(zhi)緩存（KV Cache）需求。顯存與帶寬，正成為(wei)壓(ya)在AI基礎(chu)設施之(zhi)上(shang)的兩(liang)座(zuo)大(da)山。

與此同時，隨著大模型加速進入千行百業，推理型負載成為主流計算模式，而推理是一種高(gao)度通信(xin)敏(min)感的(de)計(ji)算過程。以Qwen3-235B模型(xing)為例，若要(yao)實現100 tokens/s的(de)(de)解碼速度，單(dan)個token需完(wan)成多(duo)達188次的(de)(de)All-to-All通信(xin)，且每(mei)次通信(xin)的(de)(de)延(yan)遲必須控制在53微秒(miao)以內。

更不容忽視的是，Agentic AI的興起正在進一步拉高對計算系統的需求。具備自主規劃、多模態感知與連續執行能力的智能體，在執行任務時生成的token數量往往是傳統模型的數十倍甚至上百倍，動(dong)輒需要處理數(shu)十萬(wan)乃至數(shu)百萬(wan)token。

算力基礎設施面臨的上述三大關鍵挑戰，使其走到升級重構的臨界點。為了支撐萬億參數級模型的高效運行，構建高(gao)度集成、低(di)延(yan)遲、高(gao)帶寬(kuan)的Scale-Up（縱向(xiang)擴(kuo)展）系統，即通過構(gou)建一(yi)個(ge)更大的高速互連(lian)域、形成“超節點”，成為現(xian)實的技術選擇。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

通過構建超低延遲的統一顯存空間，Scale-Up系統能將萬億級模型參數及激增的KV Cache整體容納于單一高速互連域內，保障了多芯片間高效協同執行，顯著減少跨節點通信開銷，從而大幅提升吞(tun)吐速(su)度并(bing)降低通信延(yan)遲，實現降本增效。

AI算(suan)力需求側(ce)的(de)(de)變化，正(zheng)驅動(dong)供給側(ce)的(de)(de)廠商們爭相布局前(qian)沿的(de)(de)Scale Up方案。2024年，英偉(wei)達(da)在(zai)GTC大會上提出SuperPod的(de)(de)概念；今年，國內廠商的(de)(de)方案更是(shi)將超節點引(yin)入大眾視野。

當前，業界在超節點技術方案的選擇上，存在多種路徑。在浪潮信息看來，超節點要根據客戶應用需求來選擇技術路線，要給客戶提供更多算力方案的選擇，核心策略是“開放(fang)架構”。

基于開放架構設計的超節點，能夠支持多樣化芯片、開放AI框架及主流開發工具，在保障高性能、低延遲的同時，實現跨平臺的良好兼容與靈活擴展，推(tui)動AI基礎設施真正走向(xiang)開(kai)放(fang)、可(ke)持續的發展路徑。

二、單機運行四大開源模型，全面支持主流框架

昨日，浪潮(chao)信息在2025開放計(ji)算技術大(da)會上正(zheng)式發布(bu)元腦SD200超節點AI服務器。作為(wei)開放計(ji)算領域(yu)的(de)(de)重要風向標，該大(da)會一向聚焦推動算力基礎設施的(de)(de)開放與(yu)協(xie)同，而(er)SD200正(zheng)是這一理念的(de)(de)典型體現。

SD200基(ji)于OCM（開放算(suan)力模組(zu)）與OAM（開放加速模塊）兩大(da)架構打(da)造。OCM標準由中(zhong)國電子(zi)技術標準化研究院發起(qi)，浪潮(chao)信息、百(bai)度等18家(jia)算力產(chan)業上下游企業共(gong)同參與編制。

該架構(gou)圍繞CPU和內存進行解耦設計，具備高度模塊(kuai)化(hua)與(yu)標準化(hua)優勢，支持(chi)系統供電、管理、風扇(shan)等組件(jian)的獨立升級與(yu)更換，大幅提(ti)升了服務器(qi)的靈活性(xing)與(yu)可維護性(xing)。同時(shi)，OCM支持(chi)“一機(ji)多芯”，可快速適配Intel、AMD、ARM等多種計算平臺。

OAM則由(you)開放計(ji)(ji)算項目（OCP）社區推動，是(shi)專為高性能計(ji)(ji)算與AI加速場景設(she)計(ji)(ji)的開放模塊標(biao)準(zhun)。

該架構統一(yi)(yi)了(le)加速(su)(su)卡的(de)尺寸、電氣(qi)接口和散熱(re)設計，使來(lai)自不同廠(chang)商的(de)GPU、NPU等AI加速(su)(su)器(qi)可在同一(yi)(yi)系統中協同運行，并通過高速(su)(su)互聯技術實(shi)現加速(su)(su)卡之間(jian)的(de)低延遲直連，有效滿足大模型訓練與(yu)推理對帶寬的(de)極(ji)致(zhi)要求。

浪潮信息將OCM與OAM架(jia)構有機融合(he)，為(wei)業界提(ti)供了一種開(kai)放的超節點技術(shu)架(jia)構。

不過，光有“開放”的特性，仍不足以讓一款開放超節點方案獲得廣泛采用，性(xing)能同樣至關重要。

在開放計算技術大會現場，浪潮信息副總經理趙帥曬出了SD200超節點在真實部署環境下實現的性能。在經過軟硬件的系統協同優化后，SD200超節點滿機運行DeepSeek R1全參模型推理性能提升比為370%，滿機運行Kimi K2全參模型推理性能提升比為170%。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

SD200超節點配備高達4TB的顯存，能夠同時容納DeepSeek、Qwen、Kimi、GLM等多個旗艦級開源模型。趙帥稱，這樣的顯存配置具備前瞻性，不僅可滿足當前萬億級模型的部署需求，甚(shen)至為未來可能(neng)出現的(de)2萬億、3萬億參(can)數(shu)模(mo)型預留(liu)了(le)充足空間。

然而，在打造(zao)這一方案時，浪潮信息(xi)并未一味追求(qiu)(qiu)技術(shu)堆疊，而是更注重實際落(luo)地的(de)可(ke)行性。正如浪潮信息(xi)趙帥在發(fa)布會后與智東西等媒體交流時所提到的(de)——客(ke)戶的(de)核心(xin)訴求(qiu)(qiu)是“能(neng)否(fou)快(kuai)速(su)部署、快(kuai)速(su)上業務、上應(ying)用”。

基于這一判斷，SD200在使用便利性上進行了優化設計。例如，采用風冷(leng)散熱，企業無需改造機房，即可靈活部署；在互連方案上，則選擇了更為成熟穩健的全銅電互連，提升了(le)系統(tong)穩定性，同(tong)時降低了(le)終端用戶的運維復雜度和成本。

此外，SD200超節點還全面兼容當前主流的開源大模型計算框架（如PyTorch，已支持2200+算子），可實現新模(mo)型(xing)的無縫遷移與“Day 0”上(shang)線，為企業構建(jian)AI應用(yong)提供了即開即用(yong)的基(ji)礎平(ping)臺(tai)。

三、軟硬協同優化實現性能突破，揭秘開放超節點背后創新

這樣(yang)一(yi)套開放超節點方案背后，是(shi)浪潮(chao)信息在(zai)融合架(jia)構和軟硬件(jian)協同方面長達十余年的(de)深厚積累。

趙帥(shuai)分(fen)享道，自(zi)2010年起(qi)，浪(lang)潮信息持續推進融合(he)(he)架(jia)(jia)構演(yan)進，從最初(chu)的(de)供電、散熱等非IT資(zi)源(yuan)的(de)整(zheng)合(he)(he)，到存(cun)儲、網(wang)絡等資(zi)源(yuan)池化(hua)(hua)，再(zai)到最新融合(he)(he)架(jia)(jia)構3.0系(xi)統實現(xian)了(le)計算、存(cun)儲、內存(cun)、異構加(jia)速等核心IT資(zi)源(yuan)徹底解耦和(he)池化(hua)(hua)。

這沉淀下來的芯片(pian)共(gong)享內存數據(ju)、統一編址技術、池化(hua)、資源動態調度等技術，在今天(tian)的超節點系統中得(de)以延續和應用，顯(xian)著提升了(le)系統的適(shi)配(pei)速(su)度(du)與(yu)商用效率。

此外，浪潮信息并非單純的硬件廠商，其在大模型領域同樣具備深度布局——早在2021年即發布首個中文巨量模型“源1.0”，其參數規模達(da)2457億(yi)，并持續在模型訓練、推理優(you)化(hua)和軟硬件(jian)協(xie)同方(fang)面積累經驗。這些能力也為SD200這樣的超(chao)節(jie)點(dian)方(fang)案提供了堅實基礎。

為突破萬億大模型的帶來的顯存壓力，SD200超節點基于浪潮信息自主研發的開放總(zong)線(xian)交換（Open Fabric Switch）技術，首創多主機三維(wei)網格系(xi)統架構（3D Mesh）。在(zai)這一(yi)架構(gou)下，64顆本土GPU能夠以高速、低延遲的方式實現互連。

更進一步，SD200通過GPU虛(xu)擬映射等底層創新，解決了(le)多主機環境下統一(yi)編(bian)址的難題，將顯(xian)存(cun)統一(yi)地(di)址空間擴增8倍，顯(xian)存(cun)容量達4TB，配合64TB系統內存(cun)，為超大模型提供了(le)充足的KV緩存(cun)資(zi)源。

這意味著，不論是在模型訓練還是推理過程中，開發者都能像調用單機GPU一樣，靈活調度整個系統中的算力與顯存資源，極大簡化了工程(cheng)復(fu)雜度。實(shi)測(ce)結果表明，在(zai)推理(li)過(guo)程常(chang)見的小數據包通信(xin)場景中，全規(gui)約（All Reduce）性能表現(xian)優(you)異，顯(xian)著提(ti)升計算(suan)與通信(xin)效率。

在系統層面，浪潮信息圍繞萬億參數大模型計算密集、通信敏感的特性，構建起一整套軟硬協同優化(hua)的系統方案(an)，將(jiang)64卡超節點的算力潛能釋放(fang)到極致。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

一方面，浪潮信息開發了智能(neng)總線管理(li)系統(tong)，可實現超(chao)節點64卡全(quan)局最優路由的自動創建與(yu)管理。該系統不僅(jin)支持靈活拓撲切換，還能根據業(ye)務負載動態進行(xing)資(zi)源切分與(yu)調度，為不同類型的大模型任務提供定(ding)制(zhi)化的算力編排能力。

針對All Reduce、All Gather等典型(xing)通信算子(zi)的不同數據(ju)包規模，系統(tong)設計了(le)細粒度(du)、多層級的通信策略，進一步壓縮通信路徑的延遲。

此外，SD200還引入了開(kai)放(fang)的PD分離(li)框架(jia)，將預填充(chong)-解(jie)碼（Prefill-Decoder）環節解(jie)耦，支持異步(bu)KV Cache高效傳輸，并允許針(zhen)對(dui)不(bu)(bu)同模型并行需求制定差異化策略，兼(jian)顧性能與(yu)兼(jian)容性。這一(yi)設計不(bu)(bu)僅提升了(le)系統性能，也保障了(le)對(dui)多元算(suan)力(li)架構的適配能力(li)，加強了(le)計算(suan)與(yu)通信之間的協(xie)同優化。

通過軟硬協同系統(tong)創新(xin)，SD200成(cheng)功實現了(le)縱(zong)向擴展，幫助本土AI芯片突破了(le)性(xing)能(neng)邊界，在大模(mo)型(xing)場景中展示出優異(yi)的性(xing)能(neng)表現。

結語：開放超節點，帶動產業鏈協同創新

在(zai)趙帥(shuai)的分(fen)享中，智東西(xi)感受到了浪潮(chao)信息對(dui)“以應(ying)用為導向”的堅持。作為系(xi)統(tong)廠商，他們(men)與終端(duan)客戶(hu)的距離(li)更近，也(ye)更能體會到實際(ji)應(ying)用場景(jing)的痛點(dian)。也(ye)因此(ci)，趙帥(shuai)稱(cheng)，超節點(dian)架構本(ben)質上是系(xi)統(tong)化(hua)思維的產物，它不是某一個點(dian)的突破，而是在(zai)現有技術(shu)、生(sheng)態和成本(ben)約束下，從系(xi)統(tong)層面去打破芯(xin)片本(ben)身(shen)的性能邊(bian)界，最大化(hua)用戶(hu)價值。

超節點(dian)的(de)發展也為中(zhong)國本(ben)土產(chan)業鏈(lian)提供了(le)發展機(ji)遇——高速(su)連接器、線纜、板材、電源(yuan)等上下游產(chan)業鏈(lian)廠商，都有(you)望這個過(guo)程中(zhong)找到屬(shu)于自己的(de)突破點(dian)。這不僅能加速(su)成本(ben)下降(jiang)和(he)技術普(pu)惠，更推動了(le)智(zhi)能基礎(chu)設施的(de)“平權(quan)化”。

放眼未(wei)來(lai)，趙帥認為(wei)，AI數(shu)據中心正從“機柜(ju)級密度(du)革(ge)命”邁向“數(shu)據中心級系統(tong)工程挑(tiao)戰(zhan)”，算力密度(du)將持(chi)續攀升，能源供給(gei)、冷卻方式和系統(tong)管(guan)理也(ye)隨之進入全面革(ge)新期(qi)。

從(cong)芯(xin)片到(dao)架構(gou)，從(cong)系(xi)統到(dao)生(sheng)態，技術演進注定(ding)不會是一條單線(xian)道路(lu)(lu)，而(er)是多路(lu)(lu)徑的協同創新。在這場(chang)關于(yu)未來(lai)的集(ji)體奔赴中(zhong)，唯(wei)有持續開放(fang)、擁(yong)抱合作(zuo)，才能構(gou)筑真(zhen)正普(pu)惠、可(ke)持續的智能算力(li)基石。

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

一、廠商競相追逐超節點，開放架構需求凸顯

二、單機運行四大開源模型，全面支持主流框架

三、軟硬協同優化實現性能突破，揭秘開放超節點背后創新

結語：開放超節點，帶動產業鏈協同創新

相關推薦