智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影
智東西8月27日報道,今天下午,在第四屆828 B2B企業節開幕式上,華為云宣布其Tokens服務全面接入CloudMatrix384超節點。
借助xDeepServe架構創新,該服務單芯片最高可實現2400TPS的吞吐量與50ms的TPOT(Token處理時延)。
一、中國日均Token消耗量暴增超300倍,接入超節點突破性能瓶頸
數據顯示,過去18個月中國AI算力需求呈指數級增長。2024年初中國日均Token消耗量為1000億,截至2025年6月底,這一數據已突破30萬億,1年半內增長超300倍,這對算力基礎設施提出了更高要求。
2025年3月,華為云在傳統按卡時計費模式基礎上,推出基于MaaS(模型即服務)的Tokens服務,提供在線版、進線版、離線版及尊享版等多種規格,適配不同應用場景的性能與時延需求。

此次接入CloudMatrix384超節點后,依托超節點原生的xDeepServe框架,Tokens服務吞吐量從2025年初的1920TPS提升至2400TPS。
華為云認為,大算力構建需全棧創新,涵蓋硬件、軟件、算子、存儲、推理框架及超節點等環節。
其中,CloudMatrix384超節點通過計算架構創新突破性能瓶頸;CANN昇騰硬件優化算子與通信策略;EMS彈性內存存儲打破AI內存限制;xDeepServe分布式推理框架則以架構提升算力效率。
二、xDeepServe架構拆解模型,優化算力調用
作為CloudMatrix384超節點的原生服務,xDeepServe采用Transformerless極致分離架構,將MoE大模型拆解為Attention、FFN、Expert三個可獨立伸縮的微模塊,分配至不同NPU同步處理,再通過微秒級XCCL通信庫與FlowServe自研推理引擎整合,形成Tokens處理“流水線”。
經優化后,單卡吞吐從非超節點的600tokens/s提升至2400tokens/s。

CANN作為硬件加速計算中間層,包含算子庫、XCCL高性能通信庫等組件。其中XCCL專為超節點大語言模型服務設計,可發揮CloudMatrix384擴展后UB互聯架構的潛力,為架構分離提供帶寬與時延支持。
FlowServe分布式引擎將CloudMatrix384劃分為自治的DP小組,每個小組配備Tokenizer、執行器、RTC緩存與網絡棧,可實現千卡并發無擁堵。
華為云透露,xDeepServe已實現MA分離,下一步計劃將Attention、MoE、Decode改造為數據流,并擴展至多臺超節點,以線性提升推理吞吐。
三、支持主流大模型與Agent平臺,已落地多行業場景
目前,華為云MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify、扣子等主流Agent平臺。
在模型性能優化方面,文生圖大模型通過Int8量化、旋轉位置編碼融合算子等方式,在輕微損失畫質下,出圖速度達到業界主流平臺的2倍,最大支持2K×2K尺寸。
文生視頻大模型通過量化、通算并行等手段,降低延遲與顯存占用,性能較友商提升3.5倍。

應用層面,華為云已與超100家伙伴合作,在調研分析、內容創作、智慧辦公、智能運維等領域開發AI Agent。
例如,基于MaaS平臺的今日人才數智員工解決方案,集成自然語言處理、機器學習等技術,可提升服務效率與客戶滿意度;北京方寸無憂科技開發的無憂智慧公文解決方案,能助力政企辦公智能化轉型。
結語:華為云超節點讓算力更適配AI應用需求
當前,AI技術正從模型研發向產業滲透加速邁進,而算力作為核心基礎設施,其性能、成本與適配能力將直接決定著產業智能化的推進速度。
隨著后續更多超節點擴展計劃的推進,以及更多行業場景的深度適配,這類AI基礎設施的升級,或將進一步降低企業接入AI技術的門檻,讓技術更加深度地融入生活。