智東西(公眾號:zhidxcom)
作者?|? 陳駿達
編輯?|??漠影

算(suan)力,已成(cheng)為(wei)推動AI產(chan)業持(chi)續演進的(de)核(he)心(xin)引擎。隨著國(guo)(guo)產(chan)大模型體系的(de)快速(su)崛起,構(gou)建(jian)自主、可控、可持(chi)續的(de)國(guo)(guo)產(chan)算(suan)力生態(tai)閉環,讓國(guo)(guo)產(chan)算(suan)力平臺與國(guo)(guo)產(chan)AI生態(tai)深度適配,已成(cheng)為(wei)產(chan)業界(jie)的(de)共識與關鍵(jian)方(fang)向。

令人可喜的是,今年(nian)以來,國(guo)產(chan)算力(li)平(ping)臺與國(guo)產(chan)AI生態的“Day 0”適配、聯合創新等消息陸續傳出。作為國(guo)產(chan)算力(li)的代表企業(ye),在生態層面,寒武紀以更加開放(fang)的姿態積極擁(yong)抱國(guo)產(chan)AI生態,與主流AI社(she)區和領(ling)先企業(ye)保持深度協同。

寒武紀今年在阿里Qwen 3系(xi)列模(mo)型(xing)、DeepSeek-V3.2-Exp模(mo)型(xing)發(fa)布(bu)當日,就(jiu)宣布(bu)完成適(shi)配,這意(yi)味著雙方(fang)在模(mo)型(xing)發(fa)布(bu)之前,就(jiu)已展開深度合作(zuo)。除此之外,寒武紀還(huan)與(yu)商湯(tang)、智譜、階躍星辰官(guan)宣了合作(zuo),推進(jin)國產算(suan)力(li)與(yu)國產大模(mo)型(xing)的深度適(shi)配。

這些(xie)合作(zuo),讓開發者(zhe)在寒(han)武(wu)紀平臺(tai)上能夠低成本完成遷移與部署,顯著降(jiang)低算力替代與生態(tai)融合的門檻(jian)。

寒武紀成(cheng)立的(de)初衷(zhong)是為(wei)“人(ren)工智能的大爆(bao)發”提供底層算力支(zhi)持(chi),不僅要(yao)硬件(jian)算力強大,更要(yao)軟件(jian)通用、易用。寒武紀一(yi)直(zhi)以來(lai)采用了(le)訓練推理(li)融(rong)合(he)(he)、統(tong)一的(de)基(ji)礎軟件(jian)(jian)(jian)平(ping)臺研發策略(lve),構建了從自研芯片架(jia)構到高性能軟件(jian)(jian)(jian)平(ping)臺的(de)完整體(ti)系,實現了計算(suan)架(jia)構、編譯優化(hua)與算(suan)法(fa)調度的(de)深(shen)度融(rong)合(he)(he):硬件(jian)(jian)(jian)為(wei)算(suan)法(fa)提供極致的(de)并(bing)行性能與能效比,軟件(jian)(jian)(jian)則(ze)通過智(zhi)能編譯、調度與適配,讓每一份(fen)算(suan)力(li)最大化(hua)釋放(fang)。

寒武(wu)紀打造(zao)的(de)基礎軟件(jian)平(ping)臺Cambricon?NeuWare,讓(rang)用戶與開發者能夠跨越不同(tong)的(de)寒武(wu)紀硬件(jian)和應(ying)用場景,降低(di)上(shang)手(shou)難度,提(ti)升開發效率(lv),快速遷移與部署AI應(ying)用。

經過多(duo)年投入與積累,Cambricon?NeuWare已(yi)經日趨成熟,全面(mian)兼容社區最新PyTorch版(ban)本和(he)Triton算子(zi)開發語言(yan),支持用戶模型和(he)自(zi)定義算子(zi)快(kuai)速遷移,其在多(duo)項(xiang)指標上都(dou)已(yi)達(da)到業界領先水平(ping)。

針(zhen)對當前(qian)業界(jie)極具挑戰的大規(gui)模集(ji)(ji)群(qun)運(yun)維(wei)實(shi)(shi)踐,Cambricon NeuWare進一步豐(feng)富(fu)和完(wan)善了多項集(ji)(ji)群(qun)工(gong)具,為大規(gui)模訓練推理業務在集(ji)(ji)群(qun)環境中的部署運(yun)維(wei)調試和調優提供了堅實(shi)(shi)的底(di)座。

眾多國產AI廠商(shang)對寒(han)武紀算力的信賴,充分(fen)驗證寒(han)武紀基(ji)礎(chu)軟件(jian)平(ping)臺Cambricon?NeuWare的穩定性和競(jing)爭力,已經(jing)滿足了真實世界的商(shang)用(yong)要求。

一(yi)、從大模型到(dao)搜(sou)廣推訓推解(jie)決方案,寒武紀完成大規(gui)模技術和(he)產品(pin)驗證

大模型技術正成(cheng)為智能經濟的核心驅動力,深刻重塑人機(ji)交互(hu)的方式。“搜廣(guang)推(tui)”場景——即搜索、廣(guang)告與(yu)推(tui)薦系統——成為大(da)模型(xing)技術(shu)落地最具(ju)價值的前沿(yan)陣地之一(yi)。大(da)模型(xing)賦能的搜廣(guang)推(tui)系統,不僅帶來用戶體驗的顯(xian)著提(ti)升,更(geng)重塑(su)了流量(liang)分(fen)發(fa)的邏輯:讓“找信(xin)息”、“看內容”、“買東西”從(cong)被動(dong)推(tui)薦走向主動(dong)理解,從(cong)關鍵詞匹配邁向意圖(tu)洞察。

大(da)模(mo)型與“搜廣推”的(de)(de)(de)融合,不僅是一場技術革新,更是商業模(mo)式的(de)(de)(de)再造(zao)。寒武紀(ji)在(zai)大(da)模(mo)型與搜廣推的(de)(de)(de)訓練(lian)推理上,都(dou)已完成了大(da)規模(mo)的(de)(de)(de)技術和產品驗證。

在(zai)搜廣(guang)推(tui)訓練方(fang)向,寒武(wu)紀(ji)穩(wen)步(bu)推(tui)進(jin)技術(shu)和產品驗證(zheng)。驗證(zheng)結(jie)果表明(ming),解決方(fang)案可支(zhi)撐多場景下的(de)流式訓練任務,可持(chi)續超數(shu)月(yue)穩(wen)定運(yun)行,精(jing)度與穩(wen)定性均滿足要求。持(chi)續性能優化方(fang)面,完成Layernorm/RMSNorm/L2Norm等多種圖(tu)匹配融(rong)合,顯著(zhu)(zhu)提升性能。在(zai)圖(tu)融(rong)合基礎(chu)上進(jin)一步(bu)優化XLA支(zhi)持(chi),并獲得更顯著(zhu)(zhu)的(de)加速比(bi)結(jie)果。

在(zai)大模(mo)型訓練(lian)方向,寒武紀重點支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE類模(mo)型訓練(lian),同(tong)時(shi)擴展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模(mo)型的(de)訓練(lian)支持。基(ji)于原生FP8的(de)計算能力,新(xin)增Qwen/DeepSeek等系列網絡FP8的(de)訓練(lian)支持,精度(du)符合預期。

在大模型推理(li)方向,寒武紀研究并實踐W4A4以及MX-FP8/MX-FP4等(deng)新型數據類型,探索并支持(chi)多種高(gao)效注意(yi)力機制,包(bao)括Sparse?Attention與Linear Attention。

寒武紀(ji)緊跟先(xian)(xian)進(jin)(jin)模(mo)(mo)(mo)型的(de)演進(jin)(jin),支持Qwen-Omni等多(duo)模(mo)(mo)(mo)態融合模(mo)(mo)(mo)型、Hunyuan3D等3D生成模(mo)(mo)(mo)型、CosyVoice等語音生成模(mo)(mo)(mo)型,以及DLM和VLM等新興(xing)架(jia)構,確保技(ji)術棧的(de)先(xian)(xian)進(jin)(jin)性(xing)與完(wan)備性(xing)。

值得一(yi)提的是,通過深度的生(sheng)態(tai)合作(zuo),針對DeepSeek V3.2-Exp模型,寒武紀(ji)實現發(fa)布即適(shi)配(pei)(pei)的支持,并(bing)與合作(zuo)伙(huo)伴同(tong)步開源(yuan)適(shi)配(pei)(pei)代碼。

與此同(tong)時,持(chi)(chi)(chi)續優(you)(you)(you)化(hua)(hua)vLLM推(tui)理(li)引擎(qing),完善(shan)混合精度低比特(te)量化(hua)(hua)推(tui)理(li)機(ji)制,支(zhi)(zhi)持(chi)(chi)(chi)通算(suan)并行(xing)優(you)(you)(you)化(hua)(hua),支(zhi)(zhi)持(chi)(chi)(chi)PD分離(li)部署,支(zhi)(zhi)持(chi)(chi)(chi)基于(yu)類IBGDA的極致低時延大規(gui)模(mo)專家并行(xing),支(zhi)(zhi)持(chi)(chi)(chi)Torch.compile特(te)性優(you)(you)(you)化(hua)(hua)主機(ji)側瓶頸,實現了(le)大模(mo)型應(ying)用的全方位(wei)加速。

寒武紀持(chi)(chi)續(xu)開(kai)展對DeepSeek、Qwen、Wan、Hunyuan等(deng)系列最新開(kai)源模型(xing)的極致性能優(you)化,并專項攻堅長序(xu)列與(yu)超低解碼延時等(deng)場景的性能優(you)化,持(chi)(chi)續(xu)保持(chi)(chi)性能領先優(you)勢(shi)。

寒武(wu)紀能(neng)(neng)夠(gou)在大模型與(yu)“搜(sou)廣推”訓推方(fang)面取得快速突(tu)破(po),完成大規模技(ji)術和(he)產品驗證,源于寒武(wu)紀長期的技(ji)術深耕與(yu)軟硬協(xie)同能(neng)(neng)力。正是這種軟硬一體、兼具性能(neng)(neng)領先(xian)與(yu)部署高效(xiao)的核心競(jing)爭力,讓寒武(wu)紀能(neng)(neng)夠(gou)快速獲得市場信任和(he)認可(ke)。

揭秘寒武紀的10年迭代:從大模型到搜廣推,國產算力攻堅“軟件護城河”

▲ 寒(han)武紀基礎軟(ruan)件平臺Cambricon NeuWare,圖(tu)中僅列舉部分組件,相關縮寫詞(ci)注釋(shi)請(qing)見文末。

二、高穩定驅動和運行時庫,讓AI企業無憂擴展

底(di)層驅(qu)動的高穩定性是業(ye)務部(bu)署的重要(yao)前置條件,寒武(wu)紀(ji)的驅(qu)動能(neng)支撐企業(ye)業(ye)務運行數月不停機。同時,寒武(wu)紀(ji)的驅(qu)動在(zai)業(ye)務優(you)化迭(die)代(dai)中,大(da)幅(fu)提升(sheng)了吞吐能(neng)力,在(zai)極具挑戰的搜廣推和(he)大(da)模(mo)型(xing)推理場景中,最大(da)限度地消除了主機側瓶頸,為(wei)端(duan)到端(duan)達成領先的計算效率(lv)打下(xia)了堅實的基礎。

寒武紀通過細粒度(du)的(de)并行技術,解耦數據依賴和調(diao)度(du)依賴,極限壓榨Kernel函數的(de)吞吐(tu)能力,疊加多(duo)路DSA異步調(diao)度(du)和協同優化,Kernel函數調(diao)度(du)吞吐(tu)可(ke)達(da)每秒(miao)幾十萬個任(ren)務(wu),實現業界領先的(de)Kernel吞吐(tu)能力。

全面支持Kernel graph的批量(liang)下發(fa)功能,可運(yun)行時(shi)匯(hui)聚多個算子單次下發(fa),支持在設(she)備側駐留和下發(fa),實現極低延遲(chi)的多Kernel下發(fa),延時(shi)水平與(yu)國際競品相當。

增(zeng)加類IBGDA接口,為(wei)通信庫進行極低時延的專家并行通信提供系統保障。

寒武紀的驅(qu)動(dong)和運行時庫支持豐富的設備(bei)切分(fen)使用(yong)場(chang)景:

(1)visible cluster:運行時可(ke)編程的彈性拆分(fen),可(ke)用于快速部署;

(2)sMLU:基于時(shi)分復用技術(shu),可(ke)用于docker快速部署;

(3)MIM:物理劃分,全面對(dui)標國(guo)際(ji)競品MIG技術(shu)。

三、編譯器和調試調優工具持續迭代,達到業內領先效率

BANG C語(yu)言(yan)是寒(han)武紀BANG異構并(bing)(bing)行編(bian)程模(mo)型的編(bian)程語(yu)言(yan),在C/C++語(yu)言(yan)基礎上(shang)針對MLU架(jia)構特(te)點(dian)進(jin)行擴(kuo)展,可以(yi)高效編(bian)寫在MLU上(shang)運行的并(bing)(bing)行程序,充分利(li)用(yong)MLU大規(gui)模(mo)并(bing)(bing)行架(jia)構來(lai)加速(su)計算(suan)任務。

BANG C支持(chi)豐富的(de)(de)編(bian)(bian)譯(yi)優(you)(you)化(hua)技(ji)術,包括(kuo)鏈接(jie)時優(you)(you)化(hua)(LTO)、基于Profiling反(fan)饋優(you)(you)化(hua)(PGO)、基于函數(shu)調用關系的(de)(de)函數(shu)級片(pian)上(shang)空間復用、Device側動態鏈接(jie)機(ji)制(zhi)、編(bian)(bian)譯(yi)器靜(jing)態推導訪存指(zhi)令(ling)(ling)(ling)地址空間、任務內(nei)并(bing)行(xing)指(zhi)令(ling)(ling)(ling)流自動同步(bu)算法、優(you)(you)化(hua)內(nei)存依賴分(fen)析、指(zhi)令(ling)(ling)(ling)級并(bing)行(xing)的(de)(de)局(ju)(ju)部指(zhi)令(ling)(ling)(ling)調度、全局(ju)(ju)指(zhi)令(ling)(ling)(ling)調度以及(ji)符合MLU架(jia)構的(de)(de)高性能指(zhi)令(ling)(ling)(ling)布局(ju)(ju)優(you)(you)化(hua)。

通過這一系列(lie)技術,最大限度的(de)(de)發揮芯片的(de)(de)全部潛力(li),如(ru)矩陣乘法等算子可(ke)達業界(jie)領先的(de)(de)效率。

持(chi)續快(kuai)速迭(die)代(dai)Triton算子(zi)開發語言,支持(chi)Triton 3.4所有特性,包括FP8/FP4的(de)數據類型。 引入fast libentry,優化Triton Kernel的(de)主機端(duan)開銷,在(zai)小Workload場(chang)景性能提升顯(xian)著。Triton編譯器后端(duan)實現多種(zhong)優化:

(1)優(you)化軟件流水的(de)片上ram占用(yong),優(you)化軟件流水的(de)并發度,實現平衡軟件流水性能和單指(zhi)令性能的(de)自動軟件流水方(fang)案;

(2)實現(xian)指(zhi)令并行、片上(shang)ram占用、指(zhi)令延遲(chi)掩蓋等多目標的(de)指(zhi)令調度優化;

(3)實現(xian)任務(wu)并行的自動調(diao)優和自動調(diao)度(du);

(4)實現(xian)自動循(xun)環合(he)并;

(5)實(shi)現基于(yu)算子語義(yi)的訪存和(he)計算優化(hua),如transpose穿透和(he)合并、slice、broadcast穿透等;

(6)優化指(zhi)令(ling)融合和指(zhi)令(ling)選擇的性能建(jian)模。

通過上述優化,提升(sheng)了(le)Triton?Kernel性能(neng)泛化性,其中Matmul、FlashAttention類和(he)HSTU類算子(zi)性能(neng)提升(sheng)明(ming)顯,部分熱點(dian)算子(zi)已(yi)經與手寫(xie)算子(zi)性能(neng)相當(dang)。

進一步完善系統和算(suan)子的(de)(de)調(diao)試調(diao)優工具:支持算(suan)子core dump,實現異常(chang)現場(chang)的(de)(de)核心轉存,提供(gong)精準現場(chang)和調(diao)試信(xin)息對(dui)應關系,提供(gong)core dump文件(jian)解析工具,可(ke)快(kuai)速(su)分析定(ding)位算(suan)子出現異常(chang)的(de)(de)根因。

在主(zhu)機側與設備(bei)側并行度(du)調優方面,CNPerf可在極低跟蹤(zong)開銷的情況下實現全(quan)維度(du)性能數據(ju)采(cai)集(ji),可精準捕獲主(zhu)機側與設備(bei)側執行流、PMU性能指標、函(han)數調用棧(zhan)(zhan)等關(guan)鍵(jian)信息,支持Kernel計算、內(nei)存拷貝、通信任務等多(duo)類型任務追蹤(zong),覆(fu)蓋從底層(ceng)硬件到上層(ceng)應(ying)用的全(quan)棧(zhan)(zhan)性能數據(ju)。

CNPerf-GUI智能調優(you)能力突出,內置專家建議系統可(ke)自動(dong)檢測設(she)備(bei)空泡、利用率(lv)不足(zu)、集(ji)合通信(xin)等(deng)待等(deng)問題,精準定(ding)位熱點(dian)算子與性能瓶頸。此外CNPerf-GUI針對多機多卡場景(jing),額外提供多日志自動(dong)對時與集(ji)群(qun)迭代分析等(deng)功能,進一(yi)步簡化用戶在復雜場景(jing)下的調優(you)復雜度(du)。

在單(dan)算子調優方(fang)面,CNPerf可(ke)支持GHz采樣頻率的硬件(jian)工(gong)作(zuo)(zuo)狀(zhuang)態(tai)采樣,精準記錄MLU前(qian)后(hou)(hou)端(duan)工(gong)作(zuo)(zuo)狀(zhuang)態(tai)。用戶可(ke)基于該功能分析(xi)流(liu)間/核間同步、算子軟件(jian)流(liu)水排布等問題,最大化利(li)用硬件(jian)后(hou)(hou)端(duan)資(zi)源。

CNPerf-GUI適(shi)配Linux、macOS、Windows多平臺,支(zhi)持(chi)CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志(zhi)格式,且支(zhi)持(chi)超大日志(zhi)文件(上億函數記(ji)錄(lu))的快速加載及流暢(chang)操作。

新增程序(xu)正確(que)性(xing)分析工具CNSantizer,使用運(yun)行(xing)(xing)時插(cha)樁(zhuang)技術自動完成多(duo)(duo)核間(jian)競(jing)爭訪(fang)(fang)問(wen)(wen)檢(jian)測(ce)、單核內多(duo)(duo)指令流競(jing)爭訪(fang)(fang)問(wen)(wen)檢(jian)測(ce)、Device側內存越界訪(fang)(fang)問(wen)(wen)檢(jian)測(ce)、未定義(yi)程序(xu)行(xing)(xing)為檢(jian)測(ce)、使用未初始(shi)化內存檢(jian)測(ce)等。

新(xin)增程(cheng)序性(xing)(xing)能分析和調優建(jian)議工具CNAdvisor,使用運(yun)行時插樁采集以及硬件性(xing)(xing)能計數器采集方式獲取程(cheng)序運(yun)行時狀態,并根據性(xing)(xing)能調優經驗庫,自(zi)動分析程(cheng)序性(xing)(xing)能問題并標(biao)記出對應(ying)源代碼位置,進一步給出優化建(jian)議。

四、持續打磨核心基礎算子,打造可靠維測平臺

寒武(wu)紀計(ji)算庫(ku)積極擁抱(bao)開源(yuan)(yuan)社區(qu)的(de)(de)技(ji)術演進(jin),持續迭代打磨核心基礎算子(zi)的(de)(de)功(gong)能(neng)(neng)(neng)(neng)、性能(neng)(neng)(neng)(neng)和穩定性,更快更好(hao)地支持在(zai)寒武(wu)紀智能(neng)(neng)(neng)(neng)芯(xin)片上高效、穩定地運行開源(yuan)(yuan)和私有(you)模型。計(ji)算庫(ku)針對搜廣推、大(da)語(yu)言模型、文(wen)(wen)生圖和文(wen)(wen)生視頻等熱點場景做了深入(ru)的(de)(de)功(gong)能(neng)(neng)(neng)(neng)擴(kuo)展和性能(neng)(neng)(neng)(neng)優化:

大規模Embedding Table稀(xi)疏訪存和計算極致優化,性能與GPU競品相(xiang)當;

GEMM/BatchGEMM/GroupGEMM等矩(ju)陣乘類算(suan)子性能泛化得到顯著增強,大規模矩(ju)陣乘HFU達到行業領先水平(ping);

矩陣(zhen)乘(cheng)類(lei)算子支持多種社區(qu)公開/私有定制(zhi)的低精度量化功能;

支持類CUTLASS GEMM模板庫的擴展(zhan)開發和(he)AutoTuning;

Attention類(lei)算子在低精度(du)加(jia)速等方(fang)向的探索和研發成果已成功(gong)完成驗(yan)證,獲得良好的加(jia)速效果;

支持大(da)語言(yan)模型使用的MTP技術,開發(fa)了用于優(you)化MTP性能的Top-k和Top-p采(cai)樣、隨(sui)機(ji)采(cai)樣等融合算子。

為支持計算(suan)庫的(de)(de)持續(xu)快速(su)迭(die)代,保障計算(suan)庫軟件質量的(de)(de)同時(shi)做到(dao)精(jing)度(du)性(xing)能不(bu)回退(tui),寒(han)武紀計算(suan)庫團隊還打造了(le)可靠的(de)(de)維(wei)測(ce)(ce)(ce)平臺,提(ti)供了(le)豐富的(de)(de)維(wei)測(ce)(ce)(ce)工具,開(kai)發(fa)了(le)高覆蓋度(du)的(de)(de)功能性(xing)能測(ce)(ce)(ce)例,并(bing)制定了(le)科學的(de)(de)驗收標準(zhun)。

五、通信庫擴展性比肩國際主流競品,集群工具賦能萬卡場景

通信(xin)庫針對(dui)大規(gui)(gui)模場景進(jin)行專項優化:新增HDR/DBT等(deng)Allreduce通信(xin)算法,優先(xian)提升大規(gui)(gui)模條(tiao)件下(xia)的通信(xin)帶寬,對(dui)Alltoall操作(zuo)進(jin)行深度優化,使其大規(gui)(gui)模擴展性達到與國(guo)際(ji)主流競品相當的水平。

通(tong)(tong)信庫同步加(jia)強可(ke)(ke)維(wei)可(ke)(ke)測相關的功能,支(zhi)持在(zai)線(xian)打點、模(mo)(mo)塊化(hua)日志(zhi)、高可(ke)(ke)靠服務(wu)模(mo)(mo)塊等,幫助(zhu)用戶能夠快速分(fen)析通(tong)(tong)信下發錯誤(wu),異常卡死等問題,提(ti)高集群通(tong)(tong)信可(ke)(ke)用性。通(tong)(tong)信庫通(tong)(tong)過在(zai)Kernel支(zhi)持RoCE網卡的RDMA操作(類(lei)(lei)IBGDA)顯著優化(hua)大規(gui)模(mo)(mo)專(zhuan)家并行場景(jing)下的ALL2ALL通(tong)(tong)信延遲(chi),提(ti)升了MoE類(lei)(lei)模(mo)(mo)型推理任務(wu)的端(duan)到端(duan)吞吐。

CntrainKit-Accu(大(da)(da)規模集(ji)群精度(du)定位工具(ju)):為(wei)萬卡(ka)分布式訓(xun)練場(chang)(chang)景(jing)提供(gong)端(duan)(duan)到端(duan)(duan)精度(du)定位,提供(gong)精度(du)指標在線監控,并針對(dui)精度(du)問(wen)題(ti)進行自動化分級、采集(ji)信息、智能(neng)分析并提供(gong)對(dui)應解決方案。CntrainKit-Accu工具(ju)還全面支持(chi)NaN/Inf異(yi)(yi)常檢測與快速定位,實現(xian)異(yi)(yi)常點級別的(de)秒級溯源,大(da)(da)大(da)(da)提升大(da)(da)模型和搜廣推等場(chang)(chang)景(jing)的(de)大(da)(da)規模訓(xun)練精度(du)問(wen)題(ti)排(pai)查效率,讓每一次(ci)精度(du)問(wen)題(ti)都(dou)能(neng)被精準捕獲。

CntrainKit-Monitor(大(da)規(gui)模(mo)集(ji)(ji)群監控(kong)調優工具):實現對萬卡(ka)級集(ji)(ji)群訓(xun)練(lian)任(ren)務(wu)(wu)的(de)(de)實時(shi)通信(xin)與算子性(xing)能畫像,具備(bei)毫秒級任(ren)務(wu)(wu)健康可(ke)視化能力,支持算子粒度的(de)(de)性(xing)能剖析,識別AI作業中的(de)(de)性(xing)能瓶頸。具備(bei)萬卡(ka)規(gui)模(mo)訓(xun)練(lian)任(ren)務(wu)(wu)的(de)(de)“可(ke)觀、可(ke)查、可(ke)優”能力,真正實現大(da)規(gui)模(mo)集(ji)(ji)群的(de)(de)“問題自感知(zhi)”。

CNCE(集(ji)(ji)群(qun)監管平(ping)臺):構建覆蓋計算(suan)、網絡、存儲的數據中心全景監控(kong)體系,實現對十(shi)萬卡級(ji)算(suan)力集(ji)(ji)群(qun)的秒級(ji)狀態采(cai)集(ji)(ji)與拓撲可視化。平(ping)臺具備自動(dong)發現、智能診斷、自動(dong)處理的閉環故(gu)障管理能力,支持(chi)萬卡級(ji)任務的多維(wei)異常診斷與根因定位,讓用(yong)戶專注于(yu)算(suan)法(fa)創新與模型訓練,無需再為底(di)層硬(ying)件(jian)波動(dong)分心。CNCE的上線使(shi)集(ji)(ji)群(qun)運維(wei)從“人工巡檢”邁向(xiang)“智能自治”,顯(xian)著(zhu)提升大規(gui)模?AI?訓練的可用(yong)性與穩定性。

CNAnalyzeInsight(故(gu)(gu)障(zhang)(zhang)分(fen)(fen)析(xi)工具):CNAnalyzeInsight是智能日志分(fen)(fen)析(xi)與(yu)根因(yin)診(zhen)斷(duan)引擎,支持(chi)對?GB?級日志的(de)秒(miao)級檢索與(yu)多維聚合(he)分(fen)(fen)析(xi)。具備在線(xian)實時(shi)診(zhen)斷(duan)告警與(yu)離線(xian)快速分(fen)(fen)析(xi)雙模式,能夠實現“異常發現、問(wen)題(ti)定位、原因(yin)歸納、修(xiu)復建議生成”的(de)故(gu)(gu)障(zhang)(zhang)診(zhen)斷(duan)閉環(huan),顯著提升(sheng)訓練任(ren)務的(de)穩(wen)定性(xing)與(yu)問(wen)題(ti)處(chu)理效率。

六、擁抱開源大趨勢,提供GPU零成本遷移工具

寒武(wu)紀快(kuai)速跟(gen)進社區PyTorch的進展,支(zhi)持?PyTorch 2.1到PyTorch 2.8的全部(bu)社區版本,適配了(le)包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列關(guan)鍵(jian)功能(neng)。

Torch compile性能整體上追(zhui)平GPU?compile加速比,高效支撐了產品在多(duo)個訓練和推理場景下(xia)的成功驗證。

寒(han)武紀(ji)還提供GPU Migration一鍵遷移工(gong)具(ju),幫助用(yong)戶(hu)近乎(hu)零成(cheng)本將模(mo)型從(cong)GPU遷移到(dao)MLU。同時配備(bei)TorchDump精(jing)度(du)調試工(gong)具(ju)和(he)Torch Profiler性能調試工(gong)具(ju),助力(li)用(yong)戶(hu)高效定位和(he)解(jie)決精(jing)度(du)和(he)性能問(wen)題。

此外,寒武紀還(huan)支持PyTorch Lightning、TorchTitan、TorchRec等社區(qu)(qu)生態(tai),并建立快速跟進社區(qu)(qu)版本(ben)的長效機制,可在社區(qu)(qu)版本(ben)發布(bu)后(hou)2周內實現MLU適配版本(ben)的發布(bu)。

七、近十年持續打磨迭代,寒武紀助AI走進千行百業

通過近十年的(de)(de)(de)持(chi)續打磨迭代(dai),寒武(wu)紀已(yi)構(gou)建出一(yi)套高(gao)效、易用、穩定(ding)、成(cheng)(cheng)熟(shu)且具備(bei)高(gao)可擴展(zhan)性的(de)(de)(de)軟硬一(yi)體化產(chan)(chan)品(pin)體系。憑借領先(xian)的(de)(de)(de)芯片技術與(yu)完善的(de)(de)(de)基礎軟件平臺,寒武(wu)紀產(chan)(chan)品(pin)已(yi)經在(zai)大模(mo)型(xing)、搜廣推(tui)、圖片與(yu)視(shi)頻生成(cheng)(cheng)和各類多模(mo)態(tai)的(de)(de)(de)訓練與(yu)推(tui)理場景(jing)中成(cheng)(cheng)功完成(cheng)(cheng)驗證,贏得廣泛認可。

在此過程中(zhong),寒武紀產品(pin)不斷接受更(geng)多大規(gui)模場景高(gao)強度檢驗,推(tui)(tui)動軟件平臺(tai)與(yu)芯片體系持續進化,形成了“應用促進優(you)化、優(you)化推(tui)(tui)動更(geng)強應用”的良性循環。

通(tong)過為用戶提供更(geng)高效、更(geng)穩定、更(geng)廣覆(fu)蓋的(de)支持,寒(han)武(wu)紀加速賦能產(chan)業智能化轉型(xing),推(tui)動AI能力真正走進千行百業。 “讓機器(qi)更(geng)好(hao)地理解(jie)和服(fu)務人類”,寒(han)武(wu)紀的(de)愿景正在一步一步成為現實。

附錄:

寒武紀基礎軟件平臺Cambricon NeuWare圖中標注的縮寫詞全稱

1. Cambricon HLO:機器學習模型高級操作(zuo)集(HLO)的寒武紀后端;

2. CNNL:Cambricon Network Library,寒武紀(ji)人工智能計算庫;

3. CNNL-Extra:Cambricon CNNL Extra,寒武(wu)紀人(ren)工智能(neng)計(ji)算庫(ku)的擴展庫(ku);

4. CNCV:Cambricon Computer Vision Library,寒武紀計(ji)算機(ji)視覺(jue)庫;

5. CNCL:Cambricon Communications Library,寒武紀高性能通信(xin)庫;

6. CNFFmpeg:Cambricon FFmpeg,基(ji)于開源(yuan)FFmpeg開發的硬件加速庫;

7. CNCC:Cambricon Compiler Collection,寒武紀BANG C語言編譯器(qi);

8. CNAS:Cambricon Assembler,寒(han)武紀匯編器(qi)組件;

9. CNGDB:Cambricon GNU Debugger,寒武紀BANG C語言調(diao)試工具;

10. CNSanitizer:Cambricon Sanitizer,寒武紀代碼檢測工具;

11. CNPAPI:Cambricon Profiling API,寒武紀(ji)性能分析接口庫;

12. CNPerf:Cambricon Performance,寒武(wu)紀性能分析工具;

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武紀性能剖(pou)析(xi)圖形化工具;

14. CNMon:Cambricon Monitor,寒武紀設備監控與管(guan)理命令行工具;

15. CNVS:Cambricon Validation Suite,寒武紀設備驗證工具集;

16. CNFieldiag:Cambricon Field Diagnostic,寒武(wu)紀現場診(zhen)斷(duan)工(gong)具;

17. CNAnalyzeInsight:寒武紀故障(zhang)分析工具;

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒(han)武紀通信庫性能基準測試(shi)工具;

19. Cambricon Device Plugin:寒武紀設備插件;

20. CCOMP:Cambricon Cluster Operation Management Platform,寒(han)武紀智算運管平臺。

寒武紀在“寒武紀開發者”微(wei)信公(gong)眾號上打(da)造了開發者交流平臺,開發者可以(yi)在這里第一時間獲取寒(han)武紀開發相關的新產品發布,以(yi)及線(xian)上線(xian)下(xia)活(huo)動咨詢等,推薦(jian)關注(zhu)~