智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

智(zhi)東西(xi)9月29日(ri)報道(dao),在(zai)9月26日(ri)的2025人工智(zhi)能計(ji)算大會上,浪(lang)潮信息連破兩(liang)項紀(ji)錄,讓智(zhi)能體(ti)產業化門檻一降(jiang)再降(jiang)!

一個是國內大模型最快Token生成速度:基于元(yuan)腦(nao)SD200超節(jie)點AI服務器,DeepSeek R1大模型Token生成速度僅需8.9毫秒;另一個是百萬(wan)Token成本首次擊破1元,基于其最新發布的元腦HC1000超擴展AI服(fu)務器

而這兩大突破(po)的(de)價值,正契合智能體商業(ye)化產業(ye)化落(luo)地的(de)本質邏(luo)輯——

如今,具備自主學習、決策與執行能力、能獨立完成復雜任務的智能體,已成為大模型規模化落地的核心載體,其產業化比拼的正是三大核心能力:場景適配能力、交互速度、成本控制

模型能力(li)能否(fou)(fou)精(jing)準匹配行業真實需(xu)求、交(jiao)互速度是否(fou)(fou)滿足實時場景要求、Token成(cheng)(cheng)本能否(fou)(fou)支撐盈利閉環,最終實現從技術可(ke)用到商(shang)業可(ke)持續的(de)跨越,成(cheng)(cheng)為(wei)智能體產(chan)業化(hua)的(de)關鍵(jian)桎(zhi)梏。

在這背后,算力體系的革新至關重要。當前GPU主導的計算模式與通用架構面臨挑戰,正逐漸在能效比和成本效益上觸及瓶頸,因此業界亟需重新審視并設計(ji)AI計(ji)算系(xi)統(tong),發(fa)展AI專用架構以(yi)突破瓶頸

浪潮信息(xi)通過(guo)軟硬(ying)件協同設計與(yu)深度優化,已經在持續推動AI計算架構的(de)創新與(yu)突(tu)破(po)上拿出了階(jie)段性重磅成果。

一、直面智能體產業化落地挑戰!浪潮信息發力底層架構革新之路

最近爆火的智(zhi)能(neng)體(ti)將生(sheng)成(cheng)式AI的應用(yong)潛力推至(zhi)新的高度,從為用(yong)戶提供AI工具(ju)和助手,到多智(zhi)能(neng)體(ti)協同創(chuang)造價值的未來圖景(jing)正在緩慢(man)展開。

一方面,從語言到圖像、音視頻、3D各類模型連番刷新性能天花板,模型參數從百億、千億向萬億飆升,海量數據、后訓練階段算力投入的綜合作用下,AI展現(xian)出通過學習人類(lei)知識(shi)具備(bei)泛化(hua)智能(neng)的“涌現(xian)”能(neng)力

這正是智(zhi)能體誕生的基礎,其可以(yi)根據(ju)需求、用(yong)戶(hu)預設的目(mu)標學習人(ren)類(lei)知(zhi)識主動決策、規劃、執行,甚至實現(xian)自主迭代進(jin)化。

浪潮信息刷新AI推理天花板!智能體產業化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

另一方面DeepSeek通過算(suan)法(fa)創新降低大模型門檻,開源生態(tai)繁(fan)榮,為智(zhi)能體生態(tai)繁(fan)榮奠定了基礎(chu)。

這一趨勢下,智能體產業化的三大核心要素被清晰推至臺前:模型(xing)能(neng)力決定智(zhi)能(neng)體(ti)應(ying)用(yong)上限、交(jiao)互(hu)速度決定智(zhi)能(neng)體(ti)產業化價值、Token成本(ben)決定智(zhi)能(neng)體(ti)盈利能(neng)力

具體來看,模型能(neng)力決定(ding)了(le)智(zhi)能(neng)體(ti)在(zai)具(ju)體(ti)場景中能(neng)解(jie)決什么問(wen)題、解(jie)決到什么程度:首先綜合性能可(ke)以(yi)對標甚至超(chao)過閉(bi)源(yuan)模型的開源(yuan)模型是重要支撐(cheng);其(qi)次具體(ti)到不同場景,每個(ge)模型推理、交(jiao)互、垂直領(ling)域(yu)知識(shi)精準(zhun)度,決定其(qi)能否做到在不同場景可(ke)用。

交互速度決(jue)定(ding)智能(neng)體解決(jue)問題的速度:不同于此前(qian)用戶(hu)與聊天(tian)機器人的(de)交互場景,用戶(hu)對(dui)時延的(de)感知并(bing)不敏(min)感,最初GPT-3.5每(mei)秒生(sheng)成(cheng)速度僅為40個token,彼(bi)時已(yi)經可以(yi)滿足(zu)用戶(hu)的(de)閱(yue)讀體驗,但這放到智能體交互層面(mian)遠(yuan)遠(yuan)不夠。

智能(neng)體在金融(rong)等對時延(yan)要求較(jiao)高(gao)的(de)領域,往往需(xu)要其(qi)響應(ying)速度降至毫秒級別,也(ye)就是說,即使模型能(neng)力再強,慢響應(ying)也(ye)會讓(rang)其(qi)失去實用(yong)價值。

浪潮信息刷新AI推理天花板!智能體產業化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

最后是成本,Token成本決定(ding)智能體盈(ying)利能力,Token成(cheng)本(ben)(ben)直接對應企(qi)(qi)業的算力消(xiao)耗成(cheng)本(ben)(ben),成(cheng)本(ben)(ben)與定價差(cha)額決定智(zhi)能(neng)體毛利率,若Token成(cheng)本(ben)(ben)過高,企(qi)(qi)業也會陷入賣得越(yue)多、虧得越(yue)多的困境。

然而當(dang)下推(tui)理模型(xing)的(de)思考過程會(hui)產生成(cheng)千(qian)上萬(wan)個Token,智能(neng)體(ti)在執行(xing)復雜任(ren)務的(de)中間(jian)環節(jie)也會(hui)產生大量中間(jian)文本(ben)Token。根(gen)據Reddit的(de)數據,當(dang)前使用AI輔助(zhu)編程的(de)開發(fa)者(zhe)平均每月會(hui)消耗1千(qian)萬(wan)到(dao)(dao)5億Token,相比一年(nian)前暴(bao)漲(zhang)50倍,目前企(qi)業部(bu)署(shu)一個智能(neng)體(ti)平均每月的(de)Token成(cheng)本(ben)大概是(shi)1000到(dao)(dao)5000美元。主流模型(xing)的(de)Token成(cheng)本(ben)居高不(bu)下,這對(dui)于其(qi)產業化是(shi)不(bu)小的(de)瓶頸。

因此,隨著大模型參數規模擴大、應用場景復雜化,單純依靠堆算力、堆成本的粗放模式,已難以平衡智能體的性能、速度與盈利需求,從計算架構層(ceng)面(mian)實現技術(shu)突破成為適配(pei)三(san)大要素、推動(dong)智(zhi)能體產業(ye)化落地的(de)最優路徑,這也是浪潮信息在布局的(de)方向。

二、從速度到成本雙重突破,樹AI服務器性能與成本新標桿

在這樣的產業背景下,浪(lang)潮信息作為(wei)全球算力基建核(he)心供應商,其(qi)此次連破兩個(ge)國(guo)內紀錄的硬件產品,就(jiu)是最好的例證。

首先是浪(lang)潮(chao)信息元(yuan)腦SD200超(chao)節點AI服務(wu)器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既實(shi)現(xian)國內大模(mo)型最快Token生(sheng)成速(su)度,也標志國產AI服(fu)務(wu)器Token生(sheng)成速(su)度邁入10毫秒時代

基于其獨創的多(duo)主機3D Mesh系(xi)統(tong)架(jia)構,該服務器單(dan)機(ji)實現了64路本(ben)土AI芯(xin)片的高速統一互連,單(dan)機(ji)可(ke)承載4萬億(yi)參(can)數單(dan)體(ti)模型(xing)(xing),或部署多個(ge)萬億(yi)參(can)數模型(xing)(xing)組成(cheng)的智能(neng)體(ti)應(ying)用。

浪潮信息刷新AI推理天花板!智能體產業化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

生成速度極致壓縮的背后,SD200還實現了極低通(tong)信延遲、整(zheng)機高可靠性(xing)設(she)計、超線性(xing)擴(kuo)展的推(tui)理性(xing)能

SD200達到(dao)業界最低通信(xin)延遲為0.69微(wei)秒,其采用極致精簡的(de)協議棧,包括物理層、數據鏈路(lu)層、事務層3層,原生支持Load/Store等“內存(cun)語義”,基礎通信(xin)延遲達到(dao)百納(na)秒級,同時Open Fabric原生支持由硬件邏輯實現(xian)的(de)鏈路(lu)層重傳,采用分布(bu)式、預防式的(de)流控(kong)機制,從而實現(xian)穩定可靠通信(xin)。

浪潮信息刷新AI推理天花板!智能體產業化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

為(wei)了保證整(zheng)機高(gao)可靠適應超節點的大規(gui)模(mo)商(shang)業化應用,其(qi)系統(tong)硬件層面通(tong)(tong)過全(quan)銅纜電互連、短距緊耦(ou)合傳(chuan)輸,實現(xian)每(mei)十(shi)億小(xiao)時故(gu)障(zhang)(zhang)率是(shi)傳(chuan)統(tong)光(guang)模(mo)塊(kuai)互連方案的1/100,基礎軟件層通(tong)(tong)過創新GPU故(gu)障(zhang)(zhang)信息轉(zhuan)儲(chu)、跨(kua)域故(gu)障(zhang)(zhang)關聯定位等(deng)關鍵(jian)技術,實現(xian)全(quan)方位故(gu)障(zhang)(zhang)可觀測(ce)、全(quan)自動故(gu)障(zhang)(zhang)隔(ge)離、極速故(gu)障(zhang)(zhang)恢復,業務軟件層通(tong)(tong)過構建業務故(gu)障(zhang)(zhang)預測(ce)模(mo)型實現(xian)推(tui)理響應不中斷。

浪潮信息刷新AI推理天花板!智能體產業化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

SD200還通(tong)過面向超(chao)節點(dian)創新(xin)優化的通(tong)信庫、PD分(fen)離(li)策略、動態(tai)負載均(jun)衡等技術,將通(tong)信耗(hao)時(shi)控(kong)制(zhi)在(zai)10%以內(nei),實現(xian)了Deepseek R1 671B最高(gao)16.3倍的超(chao)線性擴展率。

與此同時,為了進一步提升SD200的易用性,浪潮信息使其兼容(rong)CUDA生態,對PyTorch算子全(quan)覆蓋(gai),一鍵(jian)遷移(yi)典(dian)型應用(yong)等。

此外,基于多元開放的超節點計算平臺、異構融合的軟件棧,浪潮信息還將與生態合作伙伴共同構建全場景智能體應用,共同塑造超節點(dian)智算(suan)應用“北京方案(an)”

其次是元(yuan)腦(nao)HC1000超擴展AI服務器,推理成本首次擊(ji)破1元(yuan)/每百萬Token

浪潮信息首席AI戰略官劉軍透露,全面優(you)化降本和軟(ruan)硬協同增效(xiao)是HC1000實現百萬Token 1元成本高效生產力的關鍵路徑。其核心是浪潮信息創新設計的DirectCom極速架(jia)構以及全對(dui)稱(cheng)系統拓(tuo)撲設(she)計

浪潮信息刷新AI推理天花板!智能體產業化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

DirectCom架構每計(ji)算模組(zu)配(pei)置(zhi)16顆(ke)AIPU,實(shi)現單(dan)卡成(cheng)(cheng)本降(jiang)低(di)(di)60%以(yi)上(shang),每卡分(fen)(fen)攤(tan)系統(tong)成(cheng)(cheng)本降(jiang)低(di)(di)50%,其采用(yong)(yong)直達通信(xin)設計(ji)、計(ji)算通信(xin)1:1均衡配(pei)比,實(shi)現全(quan)局無阻(zu)塞(sai)通信(xin);全(quan)對稱(cheng)系統(tong)拓撲設計(ji)支持靈(ling)活的PD分(fen)(fen)離(li)、AF分(fen)(fen)離(li)方案,最大(da)化資源利(li)用(yong)(yong)率。

HC1000還支持超(chao)大(da)規模無損擴展,實現(xian)從1024卡(ka)到52萬卡(ka)的不同規模系統(tong)構建(jian),計(ji)算側通過DirectCom和智能(neng)保(bao)序機(ji)制(zhi),網絡側支持(chi)包噴(pen)灑動態路(lu)由(you),深度算網協(xie)同實現(xian)推(tui)理性能(neng)相比傳統(tong)RoCE提升1.75倍。

這兩大硬(ying)件一方(fang)面拉(la)高交(jiao)互(hu)速度保障實時場(chang)景響應效率(lv);另一方(fang)面推動Token成本(ben)持(chi)續(xu)觸底,為智能體規模化(hua)落(luo)地(di)提供關鍵硬(ying)件支(zhi)撐(cheng)。

三、浪潮信息的算力前瞻邏輯:跟隨應用、算法發展布局

當我們剖析浪潮信息兩大硬件背后的黑科技會發現,其核心底座是底(di)層基礎設施在系統架構(gou)、互聯協議、軟件框架等關鍵(jian)點上進(jin)行的協同創新(xin)

智能體(ti)產業(ye)化已(yi)成為(wei)行業(ye)共識,全(quan)球(qiu)知(zhi)名市(shi)研機構IDC的報告預測(ce),中(zhong)國企業(ye)級智能體(ti)應用市(shi)場規模在2028年(nian)保守估計將超過(guo)270億美元。

然而當前以GPU為核(he)心的(de)計算模式與通(tong)用計算架構正面臨嚴峻挑戰(zhan)

一方面,通(tong)用計算架(jia)構的(de)優(you)勢在于其廣泛的(de)場(chang)景(jing)兼容性(xing),但其痛(tong)點(dian)是(shi)為適配多(duo)元(yuan)需求(qiu)而預(yu)留的(de)冗(rong)余(yu)設計,往往導致特定場(chang)景(jing)下(xia)算力效率難以突破(po);另(ling)一方面,專用架(jia)構聚焦單一領(ling)域的(de)性(xing)能極致優(you)化,像為AI訓練量身打造的(de)等,受限于應用場(chang)景(jing)的(de)狹窄性(xing),難以形成(cheng)跨(kua)領(ling)域的(de)生態規模。

綜合來看,計算產業的每一次跨越式發展,本質上都是在通用架構的普適性與專用架構的高效性之間尋找動態平衡使其在(zai)場景需(xu)(xu)求、技(ji)術迭代等方面實現互補,契合當下的產業發展需(xu)(xu)求。

因此(ci),這一時間節點,隨著(zhu)AI計算需(xu)求呈指數級增長(chang),行業亟需(xu)全面轉向(xiang)效(xiao)率導向(xiang),重新審視并重構AI計算系(xi)統。

我們可以(yi)從浪潮信息的布局(ju)中,觀察到(dao)其(qi)對計(ji)算架構底(di)層創新的諸(zhu)多思考。

劉軍透露,他們追求計算架構創新的原則是跟(gen)隨應用(yong)和算法發展的方向(xiang),以(yi)應用為導向、以(yi)系統為核心(xin),才是(shi)進(jin)行(xing)計算架(jia)構創新的有效路(lu)徑。

具體來看,此次浪(lang)潮信息(xi)的SD200和HC1000針(zhen)對的是兩個典型場景

SD200面向對(dui)延遲要(yao)求(qiu)敏感的商業(ye)場景,HC1000面向的是云(yun)計算、互(hu)聯網、大規模(mo)AI服務提(ti)供商,這些企業(ye)需要(yao)為客戶的智(zhi)能體(ti)應用(yong)提(ti)供成(cheng)本更優(you)的計算基(ji)礎(chu)設施。

今年(nian)智能體剛剛起(qi)步,面向未來,其(qi)產業化落(luo)地必然會(hui)助推AI算(suan)力持續(xu)高速增長,仍有三大挑戰(zhan)并存。

首先是系統規模擴展(zhan)接近(jin)工(gong)程(cheng)極限,智能體對多(duo)模(mo)態(tai)交互、實時推理(li)的(de)需求,推動算(suan)力集群(qun)向更大(da)規(gui)模(mo)、更高互聯效率演進,但硬件與網(wang)絡的(de)物理(li)限制(zhi)日益(yi)凸顯;

其次是算力大規(gui)模增長對(dui)電(dian)力基礎設施帶(dai)來挑(tiao)戰(zhan),智能體的(de)高并發交互(hu)帶來(lai)算(suan)力(li)功耗(hao)的(de)指數級(ji)增長,單(dan)個智算(suan)中心的(de)電(dian)力(li)需求已(yi)達(da)數吉瓦級(ji)別;

最后(hou)是算力投入和產出失衡,商業兌現進程(cheng)緩(huan)慢(man),智能體產業化(hua)仍(reng)處于高(gao)投入、低回報(bao)階段,其面臨GPU利(li)用率(lv)低、尚未形成成熟盈利(li)模式等困境。

這也進一步印證了,效率導向的(de)重要(yao)性。劉軍補充說,智能(neng)體時(shi)代加速發展,從人機(ji)交互到機(ji)機(ji)交互,都意味著思考問題的(de)角度要(yao)隨(sui)之變化(hua)(hua)。當(dang)下應從規(gui)模導(dao)向(xiang)(xiang)轉向(xiang)(xiang)效(xiao)率導(dao)向(xiang)(xiang),采(cai)用算(suan)法硬(ying)(ying)件(jian)化(hua)(hua)的(de)專用計算(suan)架(jia)構(gou),探索(suo)開發大模型芯片,實(shi)現軟硬(ying)(ying)件(jian)深度優化(hua)(hua),是未來的(de)發展方向(xiang)(xiang)。

結語:大模型重塑AI生態,算力革命緊隨其后

大(da)模型發展日新月(yue)異(yi),從唯參(can)數論到應(ying)用落(luo)地,推(tui)理需求增長、智能(neng)體出現(xian)等,其對底層算力玩(wan)家(jia)提出的需求也(ye)在(zai)發生變化(hua)。

因(yin)此(ci)企(qi)業在(zai)應(ying)對AI算力(li)挑戰時,不(bu)能僅停留在(zai)解決(jue)當下(xia)的性能瓶頸(jing)與(yu)資源緊張(zhang)等(deng)表(biao)層痛點,更需穿(chuan)透問題表(biao)象,深(shen)挖制(zhi)約算力(li)效率提升與(yu)規(gui)(gui)模(mo)化(hua)應(ying)用(yong)的核心桎梏,在(zai)此(ci)基(ji)礎上,浪潮信息通過前瞻(zhan)性視角(jiao)布(bu)局(ju)技(ji)術與(yu)架構創新(xin),為未來AI規(gui)(gui)模(mo)化(hua)落地筑(zhu)牢技(ji)術根基(ji)。