智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

AI時代,存儲不僅是數據(ju)的(de)棲息之地(di),更是AI模型(xing)訓練、落地(di)過程中的(de)堅(jian)實(shi)底座。

在AI開啟的存儲行業新周期中,眾多廠商已將帶寬等性能指標卷至新的高度。然而,這種追求似乎將AI這一復雜應用場景簡單地“存儲化”了。

實際上,AI對存儲的需求遠不止于性能這一維度本身,更需要讓存儲“AI”,關注(zhu)整(zheng)體存儲解決方案與AI應用場(chang)景的契(qi)合度。這一點,也是全球唯(wei)一的AI/ML存儲基準測試——MLPerf所關注(zhu)的本質。

MLPerf存儲基準測試面向AI/ML用戶的痛點,即存儲和計算的平衡及兩者的有效利用。然而測試中(zhong)存儲架構的(de)(de)多樣與存算節點的(de)(de)非(fei)標準化,導致性能數據本身的(de)(de)參考價值有所下降。

在性(xing)能(neng)(neng)(neng)數據之(zhi)外,有(you)無另一(yi)指標可(ke)以(yi)(yi)更為準(zhun)確地反映存(cun)儲系統在AI場景的表現呢?MLPerf存(cun)儲基準(zhun)測試(shi)要求(qiu)加速器利用率需達到90%或(huo)70%,在這一(yi)區間內(nei)考(kao)核節點所(suo)能(neng)(neng)(neng)支持的最大加速卡數,測試(shi)其能(neng)(neng)(neng)否盡可(ke)能(neng)(neng)(neng)跑滿每個(ge)客戶端(duan)的理論帶寬,以(yi)(yi)實現最佳(jia)存(cun)儲性(xing)能(neng)(neng)(neng)。

在MLPerf存儲基準測試中,由于理論帶寬是統一的,因此所有廠商的解決方案均可歸一化到網絡利用率這一指標上,進行相對客觀的評估。網絡利用率的提高意味著成本的降低,算力潛能的更充分釋放,存儲與(yu)AI應用場景的契合度(du)也越(yue)高(gao)。

今年9月,新一(yi)輪MLPerf存儲基準(zhun)測試(shi)成(cheng)績發布,其中,中國企業浪潮信息的(de)分布式存儲平(ping)臺AS13000G7,在(zai)圖像分割(ge)模(mo)型(xing)3D-UNet和天文學模(mo)型(xing)CosmoFlow共計8項測試(shi)中斬(zhan)獲5項最佳成(cheng)績。這一(yi)平(ping)臺在(zai)網絡(luo)利用率上展現出20%左右的(de)優勢,斷層領先(xian)。

AI落地千行百業,存儲痛點凸顯,浪潮信息如何助力AI向實?

值得(de)一(yi)(yi)提(ti)的(de)是(shi),本(ben)次MLPerf存儲基準(zhun)測(ce)試(shi)已升級至1.0版(ban)本(ben),這(zhe)一(yi)(yi)升級提(ti)出(chu)了哪(na)些新的(de)要求(qiu),浪潮(chao)信息又是(shi)如何憑借其技術積淀與整體(ti)解決方案(an),獲得(de)新版(ban)測(ce)試(shi)中的(de)多項最佳成績的(de)呢?

一、MLPerf測試迎升級,存儲助力AI算天文分圖像

2018年(nian),圖靈獎得主大衛·帕(pa)特森(David Patterson)聯合(he)斯(si)坦福、哈佛等頂尖學術機構和谷歌、百度等AI行業頭部(bu)企業,共同發(fa)起(qi)了MLCommons協(xie)會,同年(nian)推出首款測試(shi)套(tao)件MLPerf,目前,該測試(shi)是影(ying)響力最(zui)廣(guang)的國(guo)際AI性(xing)能(neng)基(ji)準評測之一。

AI落地千行百業,存儲痛點凸顯,浪潮信息如何助力AI向實?

▲圖靈獎得(de)主大衛·帕特森(sen)(圖源(yuan):ACM)

MLPerf系列測試套件得到學界和產業界的廣泛認可。其中,MLPerf存儲基準測試是專門用于AI復雜負載下存儲系統性能的測試套件,最大程度地模擬了AI任務的真實負載,數據訪問的pipeline、架構、軟件棧均與實際訓練程序無異,已成為AI/ML模型開發者選擇存儲解決方案的權威參考依據。

AI落地千行百業,存儲痛點凸顯,浪潮信息如何助力AI向實?

▲浪潮信(xin)息是MLCommons的創(chuang)始成(cheng)員之一(圖源:MLCommons官網)

本次MLPerf存儲基準測(ce)試(shi)1.0版本測(ce)試(shi)吸引了(le)全(quan)球13家(jia)領(ling)先存儲廠(chang)商和研究(jiu)機構(gou)的(de)參與(yu),測(ce)試(shi)內容也迎來重大升級,回應了(le)當下復雜(za)AI應用場景對存儲提(ti)出的(de)新(xin)需求。

一方面,存儲系統的帶寬峰值處理能力迎來(lai)新(xin)的挑戰,測(ce)試特別關(guan)注(zhu)了在(zai)高性能(neng)GPU達到一(yi)定使用率的情況下(xia),存儲(chu)系統能(neng)為AI集群提(ti)供的整體(ti)帶(dai)寬和單個節(jie)點的帶(dai)寬。

另一方面,測試還強化了對分布式訓練的考察,特(te)別關注每個存儲節點(dian)能(neng)夠支持的(de)GPU數量,以此來衡量用(yong)戶(hu)在(zai)AI存儲方(fang)面(mian)的(de)投(tou)資效益。

在本次(ci)測(ce)試中,浪潮(chao)信息使(shi)用(yong)3臺AS13000G7平臺搭建分(fen)布式存儲集群,并配(pei)備ICFS自研分(fen)布式文件系統,參與(yu)了3D-UNet和CosmoFlow兩(liang)個單項的測(ce)試。

AI落地千行百業,存儲痛點凸顯,浪潮信息如何助力AI向實?

作為圖像分割領域最具影響力的AI模型,3D-UNet模型的測試中使用了海量的圖像類非結構化數據,要求存儲平臺具備高帶寬、低時延的特點,才能保證GPU的高效利用。CosmoFlow宇宙學分析模型參數量僅有10萬-20萬,如此之小的模型對時延提出了更高的要求。二者都是典型的數據密集型應用

在(zai)3D-UNet多客戶端(duan)(duan)2評測(ce)任務(wu)中,浪潮信息的(de)存儲平臺服務(wu)于10個(ge)客戶端(duan)(duan)264個(ge)加速器,集群聚合帶寬(kuan)達到360GB/s,單個(ge)存儲節(jie)點的(de)帶寬(kuan)高達120GB/s。

在宇宙學分析CosmoFlow單客戶端2和多客戶端2評測任務中,浪潮信息的存儲平臺分別提供了18 GB/s和52 GB/s的帶寬最佳成績

二、契合AI使用場景,兼顧性能、效率、韌性

浪潮信(xin)息(xi)多項最佳成績的背后,是其(qi)面向(xiang)AI時(shi)代(dai),提(ti)升存(cun)儲平臺性(xing)能(neng)、效率和韌性(xing)的努力。

性能層面,浪潮自研分布式軟件棧中的全新數控分離架構解決了分布式存儲數據流在節點間流轉的轉發問題,減少東西向(節點間)數據轉發量80%。這一性(xing)能(neng)的提(ti)升能(neng)幫助客(ke)戶節省大量的存儲成本,系統(tong)性(xing)價比(bi)也相應改善。

效率層面,浪潮信息通過多協議數據(ju)融合技術,解決了AI應用(yong)場景使用(yong)多種數據(ju)接(jie)入協議造成的(de)存(cun)儲(chu)效率問題,最高可(ke)節(jie)省50%的(de)數據(ju)存(cun)儲(chu)空間。

韌性層面,為滿足AI業務對持續性的要求,浪潮信息的可靠性主動管理技術、AIOps系統故障預測算法和勒索軟件檢測技術,有效預防了設備故障和數據安全問題的出現。相關技術對硬盤故障的預測準確率達到98%,對勒索軟件的檢測漏報率僅有0.029%

如何將技術(shu)整合落地,將技術(shu)指(zhi)標轉化為實(shi)際效果,最(zui)終形成完(wan)整且適(shi)配(pei)AI場景的解決方案,則是(shi)真正造福AI行(xing)業客戶(hu)的關鍵。

浪潮信息與AI場景緊密契合,憑借其產品場景化定制能力成(cheng)熟的(de)AI場景解決方(fang)案能力打造出了真正(zheng)貼合AI需求的(de)存儲(chu)產品(pin),為AI場(chang)景構(gou)建(jian)堅(jian)實(shi)的(de)數據支(zhi)撐平(ping)臺(tai)。

以本次測試中3D-UNet加速器H多客戶端下的測試結果為例,浪潮信息的多路并發透傳技術有效減少了I/O操作中頻繁的上下文切換,降低單次I/O時延50%。本次測試的3D-UNet場景中,3節點存儲支撐了1430個高并發讀線程,計算節點網絡利用率達到了72%

AI落地千行百業,存儲痛點凸顯,浪潮信息如何助力AI向實?

網絡(luo)利用(yong)率的提高有效降(jiang)低(di)了(le)(le)網絡(luo)資源(yuan)的浪(lang)費(fei)。在客戶端配置雙網卡情況下,部(bu)分參賽解決方(fang)案僅有50%的網絡(luo)利用(yong)率,意味著整套方(fang)案實(shi)質上(shang)浪(lang)費(fei)了(le)(le)近乎一整張網卡資源(yuan),大(da)大(da)增加(jia)了(le)(le)總體成本。

若在(zai)大模(mo)型訓練(lian)的(de)(de)萬(wan)卡集群(qun)下,低網絡利用率(lv)造成的(de)(de)網卡資(zi)源的(de)(de)浪費可(ke)能高(gao)達數千(qian)萬(wan)級別,更不(bu)必(bi)說(shuo)設(she)備擴容(rong)所引發的(de)(de)算力利用率(lv)下降、連(lian)(lian)接(jie)線增加、運維復(fu)雜度提升等連(lian)(lian)鎖成本效(xiao)應。

對于本就成本高昂的AI基礎設施而言,任何可以削減的開支都顯得尤為關鍵。浪潮信息存儲解決方案在網絡利用率上的明顯優勢,證明了相關方案對AI場景(jing)的高度適配(pei)

在(zai)實踐中(zhong)(zhong),浪潮信(xin)息的存儲解決方案已經在(zai)互聯網企(qi)業大(da)模型(xing)訓練(lian)推理場景、大(da)型(xing)AI算力中(zhong)(zhong)心與某國家重(zhong)點實驗室中(zhong)(zhong)落地。

例如,在大模型場景訓練中,浪潮信息通過增加全閃存儲幫助客戶實現效率提升,將斷電續訓時間降低到分鐘級別。新增20臺全閃存儲提升的效率,相當于新增了10多臺GPU服務器,從投資角度上來看,每100萬存儲投資相當于300萬的GPU服務器投資

而(er)針對大模型推(tui)理場景中(zhong)多(duo)文件協議特(te)點,浪(lang)潮信(xin)息的融合存儲(chu)方案讓客戶節(jie)省(sheng)了(le)協議轉(zhuan)化的時間(jian)(jian),使(shi)得(de)數據匯集準備(bei)時間(jian)(jian)節(jie)省(sheng)30%,存儲(chu)空間(jian)(jian)也大幅節(jie)省(sheng)。

結語:生成式AI步入下半場,存儲成AI向實關鍵

據工(gong)信部測算,到(dao)2035年(nian),中(zhong)國生成(cheng)(cheng)式AI的(de)市場規模將突破30萬億元,制造(zao)業、醫療健康、電(dian)信行業和(he)零售業對生成(cheng)(cheng)式AI技術的(de)采(cai)用率迎來較(jiao)快增長。

2024年,生成式(shi)AI正以前所未(wei)有的速度(du)走入千行百(bai)業。AI行業已經由(you)百(bai)模大戰時期的“卷模型”,轉變為“卷場(chang)景(jing)、卷應用”,或(huo)將(jiang)迎來(lai)下半場(chang)的角逐。

在(zai)AI向實(shi)發展的進程中,數據是連接物(wu)理(li)世界與數字世界的重要(yao)橋梁,而(er)存儲作為數據的載體,持續在(zai)AI落地(di)的實(shi)踐(jian)中發揮(hui)關鍵作用(yong)。