12月5-6日,由智猩猩與智東西聯合主辦的2024中國生成式AI大會(上海站)在上海圓滿收官。在第二日的「AI Infra峰會」上,GMI Cloud亞太區總裁King Cui發表了主題為《全球化布局:AI企業如何補齊算力短板,保障GPU集群穩定性》的演講。
GMI Cloud成立于2023年,是一家AI Native Cloud服務商,旨在為企業AI應用提供最新、最優的GPU資源,為全球新創公司、研究機構和大型企業提供穩定安全、高效經濟的AI云服務解決方案。其研發團隊主要來自谷歌X Lab,具備豐富的AI領域專業知識。King Cui是云計算領域資深專家,已有十幾年從業經驗,今年正式加入GMI Cloud。
本次演講中,King Cui分享道,“目前中國AI出海處于加速期,算力作為其中的核心生產資料正發揮重要作用。構建高穩定性的GPU集群是實現AI出海降本增效的必由之路,可以幫助企業在AI全球化浪潮中取勝。”
在確保GPU集群的高穩定性方面,GMI Cloud除了擁有穩定的尖端GPU芯片優勢以外,其還自主研發了Cluster Engine,整合了對GPU卡、GPU節點、高速存儲以及高速網絡的控制,為客戶提供三種核心服務形態:裸機、虛擬機、容器。這些服務在不同的層面上支持AI機器學習、基礎平臺設施以及HPC高性能運算。此外,作為Nvidia全球Top10 NCP,GMI Cloud在交付前會進行嚴格的驗證流程。
GMI Cloud還與IDC協作,擁有充足的備件,提供及時的維修,在更短的交付時間,確保停機時間最小化。另外值得一提的是,他們靈活的選型方案符合各類AI出海企業需求,King Cui在大會現場進行演講時引起眾人關注。
以下為King Cui的演講實錄:
今天給大家分享的主題是,在AI全球化的布局下,AI企業如何在海外補齊高端GPU的算力短板,并且保證整個GPU集群的穩定性。
一、快速了解一下GMI Cloud
首先我們來快速認識下GMI Cloud。GMI Cloud是一家AI Native Cloud公司,我們專門做AI時代的GPU Cloud。關于我們公司,主要有三點:
1.我們是全球Top10的Nvidia Cloud Partner,也是Nvidia Preferred Partner,可以提供英偉達全套最新最強的GPU云服務。
2.我們與英偉達是戰略合作伙伴關系,同時獲得了全球頂級GPU ODM廠商的投資,在亞太區有GPU的優先分配權,能在最短時間拿到最新最強的GPU。現在亞太很多云廠商還沒有提供H200的服務,但我們已經在今年八月份就向客戶提供H200云服務,目前具備幾千卡的H200集群。
3.我們致力于為所有AI企業打造一套獨立的AI云原生平臺,不做貿易,只做AI Cloud。我們希望為所有企業提供具備高穩定性的GPU集群云服務。

我們致力于為所有企業提供一套穩定、高效、安全、好用的GPU Cloud,鑄就全球領先的AI Cloud。目前我們在美國、中國臺灣、泰國、馬來西亞等多個國家和地區提供云服務,主要提供H100和H200,集群總規模接近萬卡規模。今年十月份,GMI Cloud剛剛完成8200萬美金的A輪融資,這筆資金將也將用于GMI Cloud在全球AI算力服務方面的布局。
二、中國AI出海是大勢所趨,算力需求和GPU集群穩定性是核心痛點
介紹完公司,我們來講第二部分,AI出海的趨勢和算力的挑戰。我們為什么要做一家出海的云服務公司呢?在分析這點之前,我們要首先回顧過去中國30多年經濟高速發展的2個核心底層因素。
第一是人口紅利和城鎮化的高速發展,這個底層因素帶動了產業高速發展,推動了中國經濟GDP高速增長。
第二個底層驅動的核心因素是通信基礎設施的發展。從2G到3G到4G到5G,通信基礎設施的發展使得人機交互的信息傳輸媒介發生了從文字、圖片、視頻的演進。移動互聯網的高速發展催生了很多新創公司,也使得國內幾個頭部云計算廠商實現了幾百億人民幣市值的躍遷。
但到今天,這兩個核心因素已經進入失速期。中國的城鎮化率已經高達66%,中國移動網民用戶數量接近11億,AI時代正式來臨,出海趨勢比較明晰了,所以我們一定要做出海。
從技術的發展來看,我們這代人是非常幸運的,我們經歷了整個互聯網時代的發展和移動互聯網時代的演進,目前正在進入AI時代。從1990年到2010年的20年是互聯網時代,從2005年到2020年的15年是移動互聯網時代,但這兩個時代都已經進入技術普惠點,不再有高速增長的機會。從2022年開始,AI時代興起,就像1995年的互聯網時代一樣,未來會有巨大的機會。它的發展速度會比以前每個時代都更加猛烈,所以我們要抓住這波人工智能浪潮。

當前行業的發展趨勢是,做AI就一定要做出海。我相信所有企業在做AI的同時,一定要立足于全球,一定要做全球化的生意。截止到今年8月份,全球AI產品總量大概有1717個,其中中國相關的AI產品有280個,出海相關的接近95個,超過三分之一。
我截取了AI產品榜前30名的APP,中國AI出海的APP前9個月的時間,整體MAU(月度活躍用戶)已經翻了一倍,并且還在高速增長。但從MAU角度來看,相比第一名的ChatGPT,中國企業還有很大的增長空間。

AI出海趨勢的底層是中國的產品力競爭。AI有三要素:算法、數據和算力,算力是非常核心的生產資料。那我們出海時如何解決算力問題?
中國的國產GPU很強,但相比高端GPU來講還有一定差距。因為各種原因,我們國內在高端優先的頂尖GPU儲備量不夠。同時,AI時代的發展時間不長,大家對于推理穩定性的運維經驗也不足。
所以,我們在海外時發現,所有的IDC、服務器、能源等供應商,他們的標準化和穩定性的考量也不充分。所以,目前在海外做AI推理面臨的最大挑戰就是穩定性問題。
這個圖(下圖)大家并不陌生,Meta了公布Llama 3-405B大模型用了16000張H100的卡,訓練了54天,總共出現了466次故障中斷,其中419次是意外發生的,而GPU相關的高達200多次。Meta是全球頂尖的互聯網公司,他們有非常強大的推理能力,但大部分廠商在面對這么高故障率的GPU集群時,是難以應對的,所以選擇一個非常穩定的GPU服務提供商是十分關鍵的。

GPU集群的穩定性與公司付出的經濟成本(含研發成本)有直接聯系,在出海時有人想選擇最便宜的GPU裸金屬服務提供方,這也許在GPU單價上節省了10%-20%,但如果穩定性不夠,整個公司研發的總成本可能會成倍增長。
從公司總體成本來講,選擇一個具備高穩定性、安全高效的GPU云服務提供方,總成本其實更低。所以無論是降本還是增效,選擇高穩定性的GPU集群是最重要的。
三、Cluster Engine、NCP驗證體系、故障預防策略“三管齊下”,承諾99%SLA
GMI Cloud如何保證GPU集群的高穩定性,面對故障時的應對措施又是怎樣的?
GMI Cloud致力于對外提供全棧AI應用平臺。
- 最底層的硬件架構層,我們提供高性能的GPU服務器,包括大容量的存儲系統以及高帶寬的數據通道。
- IaaS層,我們完成了所有容器化的梳理,今年年底我們還會推出Serverless技術。同時我們對網絡和存儲都做了API的封裝,可以以API方式對外提供服務。IaaS層和GPU硬件架構層所有相關軟件技術完全由GMI Cloud自主研發和管控。
- 再往上是模型層。開發者或小微企業可以直接使用開源的大模型。這時我們可以提供更多便利性,支持一站式把開源大模型直接部署到我們的集群,不需要做任何代碼開發就可以直接上手使用。
具備技術實力的公司可以在我們集群上部署自己的大模型做fine-tuning,我們可以提供專家服務,幫助大家把模型訓練得更好。

對于整個GPU集群的管理,我們自主研發了一套平臺,叫Cluster Engine,能夠實現所有資源的調度和管理。
在計算層面的資源調度,GMI Cloud提供裸金屬、虛擬機還有容器化等服務。在存儲層面,GMI Cloud提供基于NVME和RDMA的高性能分布式存儲,也包括冷熱分離。我們完成了所有形態的研發。在網絡層面,我們支持IB虛擬化,能夠幫助企業客戶使用更加高速穩定的IB網絡。

這里舉個例子,這是一個萬卡集群的IB網絡架構(見下圖),總共用了1280臺H100服務器,總共有10264張卡,也是一個常見的400G×8的3.2T的三層IB高速網絡架構。這里面有一萬多張H100的GPU卡,如果從正常的SLA表現來看,可能每3-4個小時就會中斷一次。

目前我們公司是為數不多真正具備萬卡IB網絡集群運維實踐的公司。在網絡虛擬化層面,我們也做了許多相關技術,能夠最大化利用資源,具體有三個好處:第一,通過網絡虛擬化,我們在資源管理上能做到很好的隔離,使不同用戶之間不會發生資源爭搶,提高整個IB網絡的使用效率;第二,性能會有提升;第三,成本會優化。
通過虛擬化技術,我們提高了現有集群的硬件使用效率,從而進一步優化整體成本。基于IB網絡,我們實現了VPC參考架構,這個VPC與傳統云計算的VPC沒有太大差異,只是每個VPC里面用的是IB網絡。比如在國外某所大學的私有GPU集群里,我們提供了IB網絡的VPC,可以把不同學院、不同教授的實驗分配到不同VPC中,各個之間不會發生資源隔離和爭搶,這對客戶來說是很好的體驗。
講完容器和網絡,我們再看存儲。我們基于不同場景做了存儲分級。如果是做備份需求,我們可以提供成本較優的SATA存儲。如果是對時效性要求高、吞吐較高的場景,比如做模型訓練的Checkpoint存儲,或者自動駕駛數據加載的高性能讀寫存儲,我們提供了基于NVME的GPFS存儲系統。根據不同場景需求,我們提供不同性價比的存儲產品。
對于大規模集群來說,可觀測性非常重要。我們提供了主動監控功能,通過自研平臺能夠實時監控和告警,并且快速定位問題,在最短時間恢復集群。這是我們集群目前提供的端到端檢測、實時儀表盤、故障告警通知及數據歷史記錄監控(下圖),“端到端監測”是目前很多客戶反饋非常方便的定位功能,我們可以發現是哪個節點、哪臺機器出了問題,快速進行修復和調整。

然后再講一講GMI Cloud的驗證體系。為了保證集群的高穩定性,GMI Cloud有兩套體系:第一套是作為Nvidia Cloud Partner的Nvidia驗證體系,第二套是在真正交付給客戶之前的、GMI Cloud自有穩定性驗證測試體系。
Nvidia的NCP認證體系非常嚴格。首先要做整個集群方案設計,然后通過NCP評估,再做整個集群建設。建設完成后Nvidia會派人檢查和測試,最終才能獲得資質許可。
此外,在交付之前的驗證,我們還會自己做硬件層面測試、系統配置測試,對網絡和存儲做壓力測試,確保這套集群既能實現單機測試,也能實現整個跨集群分布式訓練需求。

第三部分,我們看看故障的預防策略和應對措施。沒有人能保證集群穩定性達到100%,難免會出現一些問題,比如GPU硬件的掉卡或故障。我們要在最短時間內實現硬件替換。GMI Cloud與IDC伙伴和ODM廠商保持深度緊密的合作關系。我們有3-5%的備機率和備件率,能在硬件故障時通過IDC本地伙伴快速更換。
通過問題源頭追溯和SLA簽訂,我們能對外承諾使用Cluster Engine的GPU云服務可達到99%的SLA。這是目前全球GPU云服務廠商中為數不多能在合同中約定99%SLA的廠商。同時我們提供7×24小時服務響應及技術咨詢服務,確保快速解決硬件故障,減少停機時間,為客戶保持高穩定性系統。
四、研發團隊來自谷歌X Lab,可提供私有、按需兩種方案
接下來,我想講講對AI Infra選型的思考,并結合兩個實際案例進行分享。
在出海過程中,選型有幾個因素需要考慮。AI場景中,是長期租用還是短期租用?還要根據業務需求選擇是做推理還是訓練,同時也要根據經濟情況,選擇目前普遍使用的H100,或性能更高的H200,亦或未來會推出的GB200。
綜合考慮,我們提供兩種方案:第一種是Private Cloud,可以根據客戶需求和地點選擇,在全球合法的國家和地區幫助選擇IDC,定制GPU服務器,提供長期穩定服務。第二種是On-Demand的標準產品,可以按卡時計費。客戶可能只需要使用一兩張卡,訓練一兩天就釋放,不需要為短期GPU需求付出高昂的購機成本。
除了以上所講,我們還提供專業的AI顧問和咨詢服務。我們的研發團隊主要來自谷歌X Lab,在深度學習和機器學習領域積累了豐富經驗,可以為企業客戶提供專業化的AI咨詢和建議。

最后分享兩個案例。
第一個是某大型互聯網招聘平臺,他們在全球化過程中希望基于業務定制招聘垂直場景的大模型。我們在海外幫他們構建私有GPU集群,從IDC選址到GPU服務器定制,到云管理平臺組件,以及模型訓練建議,提供端到端解決方案。讓企業客戶可以專注業務研發,提高效率,加速模型訓練。
另一個是在線直播平臺,主要做主播與觀眾連麥。在涉及不同語言時,以前的技術需要先語音轉文字(ASR),再文字轉語音(TTS),目前的端到端大模型,可以實現不同語言之間的無縫對話。這家公司基于開源大模型做fine-tuning,不需要長期租用大集群,只需在fine-tuning時使用幾臺服務器再訓練幾天或一周。他們采購了GMI Cloud的On-Demand服務來完成模型fine-tuning和調優。
五、結語
總結一下,今天我們從GPU云服務提供商角度分享了在AI全球化視角下如何提供高穩定性GPU云集群。
在集群穩定性方面通過三個方式,具備主動監控的Cluster Engine云平臺、英偉達驗證體系和交付測試體系、主動運維監控策略,通過這三個維度保證GPU集群穩定性。最后結合兩個實際案例分享了AI Infra選型的思考,希望可以給大家的業務發展帶來幫助。
最后祝所有AI企業在全球化過程中業務蓬勃發展,謝謝大家。