▲頭圖由AI生成
智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影
城市大模型正處于爆發前夕,數據很可能成為一只“攔路虎”。
當下,北京、上海、深圳等多地都推出了AI新政策,提出“在城市大腦建設中應用大模型”、“構建開放式城市大模型服務平臺”等明確指示。沉睡的城市數據成為大模型的“養料”,同時數量巨大、種類異構等特征也加大了大模型落地的難度。
數據存儲是數據價值挖掘的第一關口,大模型正倒逼產業進化。過去一年多,包括曙光、華為等基礎設施龍頭,以及阿里云、騰訊云、百度智能云等云廠商都面向大模型進行了數據存儲產品優化,動輒達數倍模型訓練效率提升。
曙光存儲運營總監石靜告訴智東西:“從過去一年多次與客戶的溝通情況來看,大家從早期直接要PB級的存儲容量,到咨詢存儲如何讓GPU發揮更大效能,到現在則更加關注契合應用需求的變化,這都推動曙光存儲產品不斷進化。”
據悉,目前,曙光ParaStor分布式存儲產品能將AI整體表現提升超20倍,已落地了北京、泉州、中國移動等多個AI智能化項目,并在大模型、具身智能機器人、自動駕駛、智算中心等各個領域落地,打造了AI大模型應用標桿案例。

▲曙光ParaStor分布式全閃系列產品
隨著算力、模型的價格降低,數據成為AI產業落地的“牛鼻子”。如何挖掘城市中的海量數據價值,讓AI助力城市智能化發展,進而滲透到千行百業?從存儲環節來看,整個AI落地的成本壓縮邏輯是什么樣的?
通過對話曙光存儲運營總監石靜,沿著曙光AI數據存儲落地的足跡,我們對這些問題有了深入了解。
一、AI城市大腦進化時,向數據存儲要成本和效率
當下,城市已成為AI落地的第一站,數據存儲成為不容忽視的短板環節。
北京、上海、廣東等一線城市及省份均發布了將大模型與城市治理相結合的相關政策。比如《北京市推動“人工智能+”行動計劃(2024-2025年)》提出“構建開放式城市大模型服務平臺,打造智慧城市大腦”;《廣東省加快數字政府領域通用人工智能應用工作方案》提出“探索人工智能與城市大腦等場景創新”。各地都在加速推動AI與城市智能化建設融合發展,落地城市治理、數字政務、智慧交通、智能制造、商業等各個領域。


▲城市智能化領域AI及大模型部分核心政策(智東西梳理)
石靜告訴智東西,在AI時代,城市智能化建設發生了較大變化。
此前,“城市大腦”更側重抓取城市數據去做智能分析,現在更主要的是借助大模型去輔助城市決策和管理;此前很多項目用CPU算力就行了,現在則更多考慮異構算力,GPU等AI算力占比投入大大提升。
以泉州聯合曙光推進的智慧城市項目為例,項目涉及圖片、語音、視頻等多種業務數據,要將這些數據匯聚接入AI大模型,不僅對存儲性能和安全可靠提出更高要求,對異構數據的納管能力要求也很高。其在方案中兼顧了這些多方面需求,從而實現城市數據快速互聯,支持城市大腦中樞決策。
再以智慧交通場景為例,此前各地主要是將數據匯聚后來做簡單分析,現在則是通過交通垂直大模型輔助決策。曙光存儲也跟業界專門做交通大模型的廠商做了相關適配,以提供整個城市交通態勢掌控、更科學的交通調配等更多服務。
在這一過程中,忽略存儲是比較要命的。
石靜說:“算力越來越快,如果存儲跟不上,這很可能導致GPU算力空轉或等待,從而使資源效率難以發揮;如果忽略存儲,一些數據質量問題的出現,也可能導致大模型效果出現偏差。”
具體來說,當下城市智能化進程對數據存儲提出了以下新要求:
1、存儲性能要更極致。只有足夠快的存儲,才能匹配上足夠快的GPU或者AI芯片。2、存儲更加契合用戶業務。從通用大模型到行業生產大模型需要針對性調優,要求存儲具有一定的可定制化能力。3、數據安全要求更高。大模型訓練若出現中斷往往損失慘重,保障數據安全可靠尤為關鍵。4、更強異構數據的納管能力。面向大模型,非結構化數據的采集、匯聚、分析、處理能力提升。
“百模大戰”快速發展一年,得益于數據存儲技術進步,城市智能化項目的計算效率大幅提升。
石靜告訴智東西,在帶寬指標方面,曙光存儲ParaStor分布式全閃單個節點已經做到最高150GB/s帶寬,也就是一秒鐘可為用戶提供150G的數據吞吐,這個指標還在快速提升中,早在兩個月前還是130GB/s。
在IOPS指標方面,智存ParaStor產品可以提供320萬IOPS/s,也就是一秒鐘可以處理320萬個I/O請求,相較于以前有了十倍以上的提升。而同樣的硬件配置下,當前市場主流產品的單節點帶寬能力普遍在100GB/s以內,單節點的IOPS能力基本在200萬以下。

▲曙光ParaStor分布式全閃在相關指標情況
二、從城市體到千行百業,數據成AI落地的“牛鼻子”
眾所周知,AI大模型落地,受到算力、算法和數據“三駕馬車”牽引。
石靜談道,在前期大家更多關心模型、算力如何,但隨著AI的發展,數據應該排到更靠前的位置。大模型能否很好地指導各行各業的發展?存儲所承載的數據質量非常關鍵。
今年1月4日,國家數據局等17部門聯合印發《“數據要素×”三年行動計劃(2024—2026年)》(簡稱:行動計劃),提出選取工業制造、現代農業、商貿流通、交通運輸、金融服務等12個行業和領域,推動發揮數據要素乘數效應,釋放數據要素價值。
從城市到千行百業,新一代智存技術已經在促進“數據要素x”發展。
在熱門的具身智能領域,“天才少年”稚輝君創辦的智元機器人剛剛在8月發布了第一代具身智能機器人遠征A1,號稱達200TOPS算力。基于曙光ParaStor分布式全閃存儲提供與算力匹配的高性能存儲池,智元機器人在大模型訓練中實現了存儲的低延時、高IO吞吐,從而釋放了強大的AI算力。
在自動駕駛領域,國內知名造車新勢力通過模型模擬仿真,加速新車型從量產走向市場,曙光在2022~2024年連續為其提供超百PB的存儲資源,包括通過NVMe全閃產品提供單節點45GB/s帶寬和百萬級IOPS,最大化提升自動駕駛模型訓練效率;3天內幫助用戶從幾十個節點擴展到200+節點,應對擴展中的數據挑戰;存儲負載率長期維持在85%以上,保障數據的完整性和可靠性。
在智算中心領域,中國移動在2022年啟動了全球運營商最大單體智算中心,針對中心所需的海量非結構化數據承載、多協議互融等存儲需求,曙光ParaStor滿足了其對存儲靈活性的需求,順暢完成全局統一調度與管理,為項目未來超大規模模型跨地域、多中心并行訓練提供了存力保障。
而聚焦AI大模型生產本身,曙光ParaStor分布式全閃存儲支持某AI大模型廠商億級文件數據訓練及推理,相比原系統提效50%,最終相隔兩月內即發布上線大模型新版本;支持某科技大模型廠商整體訓練效率提升50%以上。
可以看到,從城市體到千行百業都在加速智能化,當模型和算力價格降低,數據正成為AI落地新的“牛鼻子”。

▲曙光存儲產品全家福
三、強者恒存,曙光存儲跑出中國AI加速度
AI大模型飛速發展,也反過來倒逼存儲產業升級。
在過去一年多時間里,包括曙光、華為等基礎設施龍頭企業,以及阿里云、騰訊云、百度智能云等云廠商,都針對AI大模型研發與落地的全流程,對存儲產品進行了性能優化。各大廠商的存儲產品的優化方向具有一致性,都強調高性能、多協議、可定制、高安全等提升。
其中,作為深耕AI存儲多年的頭部玩家,曙光ParaStor分布式全閃存儲將AI整體表現提升了超20倍。這是如何實現的?
石靜告訴智東西,曙光是從兩大核心去解決的,可以總結成:最強的數據底座、最佳的AI應用加速套件。
在數據底座方面,存儲就是要去發揮極致的硬件性能,軟件要把CPU、內存、網絡和硬盤介質的性能發揮出來。在AI方面,現在大家都在通過高速網絡,加上NVMe SSD閃存介質去實現,存儲軟件把高速網絡跟NVMe介質的協同發揮出來,實現最高性能。
在AI應用加速套件方面,這需要結合AI方向特殊的一些應用模式做優化。曙光有五大加速技術方案,能夠通過分析AI整個的流程去盡量縮短整個I/O流程,讓GPU更加靠近存儲,或者說讓存儲更加靠近于顯存。

▲曙光AI應用加速套件五級加速
具體展開這五級加速,覆蓋了數據流動到GPU服務器、網絡和存儲的整個階段:
1、本地內存加速。首先把計算節點本身的CPU對應內存利用起來,將一些關鍵的數據緩存在那里,做第一層加速層,延時降至納秒級別。
2、BurstBuffer加速層。進一步把GPU服務器本地的NVMe盤利用起來,它相較本地內存容量大很多,把這些數據緩存起來以后,就能夠保證海量數據不用跨網絡訪問存儲,把讀取性能提高幾倍甚至十倍以上。本地內存加速和BurstBuffer都是聚焦計算節點本身。
3、XDS雙棧兼容,減少CPU中斷。讓GPU去直通訪問存儲,縮短整個I/O通路;不光實現GPU跟存儲的直接交互,還通過存儲技術讓AI智能芯片跟存儲直接打交道,從而減少CPU本身的損耗,降低延時。
4、網絡加速(RDMA-Based)。在網絡層,用RDMA技術等技術,不管是IB網絡還是在以太網里,RDMA或RoCE都能夠把網絡帶寬給跑滿,實現第三層加速。
5、存儲節點高速層( NVMe SSD-Based )。最后是存儲本身,當下在AI應用最多的主要是NVMe全閃存,把全閃存本身的性能充分發揮出來。
深耕存儲領域20年,曙光不僅在技術進化方面緊跟市場需求發展,還不斷推進存儲產業開放生態建設。
石靜稱,目前,曙光存儲在國產和非國產硬件上都充分開放,通過軟硬件一體形態支持客戶搭建數據底座;存儲與多種前端應用計算節點平臺兼容,支持國內外AI芯片直通存儲;存儲兼容更多AI應用,通過智能I/O分析工具輔助其存儲更好地契合應用,做到應用開放。
強者恒存,曙光正跑出中國AI的加速度。
可以看到,大模型發展不僅推動國產存儲廠家不斷實現技術突破,還以更加開放的心態推動軟硬件兼容、計算平臺兼容及應用兼容,從而強化AI落地。
結語:從曙光的AI足跡,看到數字山河間的中國速度
隨著大模型落地各行各業,加速已成為AI數據存儲的核心需求。從曙光城市智能化到各行各業的AI落地案例來看,其存儲方案通過縮短數據讀寫時間,大大提升了AI大模型的訓練效率,減少算力的空轉等待時間,從而降低AI成本。
20年篳路藍縷,曙光存儲伴隨著中國信息化、數字化和智能化轉型一路發展。當下,大模型成為全球科技競賽的主賽場,以曙光為代表的國產ICT龍頭正通過更精尖的技術、更貼近場景的服務、更開放的生態助力國內大模型產業發展,跑出數字山河間的中國速度。