智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
智東西9月5日報道,今日,騰訊云在騰訊全球數字生態大會上發布AI Infra(AI基礎設施)品牌“騰訊云智算”,將旗下高性能計算HCC、星脈網絡、AIGC云存儲等單項產品能力整合,提供集算存網一體的高性能智算底座。
騰訊云智算目前已服務了90%的國內大模型頭部用戶,包括百川智能、智譜AI等。據騰訊公司副總裁、云與智慧產業事業群COO兼騰訊云總裁邱躍鵬介紹,騰訊云的集群千卡單日故障數是行業水平的1/3,數據讀寫效率是業界10倍,千卡集群通信時間是業界一半。
在大會之前,智東西與少數媒體對話了騰訊云副總裁、云計算資深技術專家沙開波,深入交流了智算產業的市場趨勢、技術難點等。
談及AI對云計算的影響,沙開波認為長期來看,生成式AI的發展是具有確定性的,大模型對智算產業來說是一塊很大的增量,未來一定會有一個比較大的爆發節點。
之所以選擇在這時成立騰訊云智算的品牌,也與客戶需求有很大的關系。另一方面,大模型計算、推理等場景對云基礎設施提出高要求,騰訊云作為解決方案提供方需要不斷打磨產品能力,從而更好地支持這一類客戶的業務需求。
一、集算存網一體,從設備上架到啟動訓練僅1天
整體來看,騰訊云智算是一個集算、存、網于一體的高性能智算底座,整合了騰訊云高性能計算HCC、高性能網絡IHN星脈、高性能云存儲、加速框架、容器、向量數據庫、智算套件等產品,提供性能領先、多芯兼容、靈活部署的智算產品能力。
互聯網企業、大模型廠商、本地智算IDC、金融企業等是騰訊云智算現階段的主要客戶,具體到場景中除了公有云,還有私有云、專有云的一些應用,其中大模型廠商是最主要的客戶之一。
騰訊云智算在訓練啟動時效上大幅提升,從設備到位到開始訓練,相較業界平均的30天時間縮小到僅1天。
在集群穩定性方面,騰訊云智算千卡單日故障卡數0.08,只有業界的1/6;數據讀寫效率上,Checkpoint聚合寫入的峰值性達到業界10倍以上,1分鐘就能完成萬卡Checkpoint讀寫;網絡交換效率方面,通過服務器、網絡端、交換機和通訊庫的整體自研優化,千卡集群的通信時間占比為6%,是業界平均時間占比12%的一半。

▲騰訊云智算訓練效率
隨著市面上的大模型參數不斷增長,從百億、千億,逐漸擴展到萬億,模型訓練對底層算力集群的要求也不斷提升。騰訊云是如何破解集群升級難點的?
沙開波談道,大規模計算集群的打造也是騰訊云智算產品矩陣最想解決的問題。其中,HCC高性能計算產品是專門用于高性能、穩定、大規模計算集群的構建,而如何將GPU等算力高效利用起來,則用到星脈網絡來提供卡之間的高效互聯,模型訓練過程中的Checkpoints高效讀寫對應的是高性能存儲產品。
基于這些產品整體構建的計算存儲網絡全棧解決方案,才能幫助客戶實現大規模集群的高效利用。
二、4天訓完萬億參數模型,網絡故障5分鐘解決
具體來看騰訊云智算的產品矩陣,包括高性能計算、網絡、存儲產品,加速框架、向量數據庫以及智算套件等。

▲騰訊云智算解決方案
騰訊云HCC高性能計算集群發布于去年4月,是行業最早發布的面向大模型訓練、推理的算力集群。
HCC底層采用騰訊云自研星星海服務器,可以提供3.2T的超高互聯帶寬,算力性能比上一代提升3倍。萬億參數的混元NLP大模型訓練,最快4天就能訓練完成。在穩定性方面,HCC千卡單日故障卡數為0.08,無中斷訓練時長達到300小時,是業界平均市場50小時的6倍。
騰訊云星脈網絡是其自研的高性能計算網絡IHN,支持超10萬卡大規模組網、多型號異構GPU接入,網絡通信效率比上一代提升60%,大模型訓練效率提升20%。
星脈網絡具備高效的故障處理能力,在萬卡集群下,網絡故障可實現1分鐘發現,3分鐘定位,5分鐘解決。
據沙開波介紹,這是因為星脈網絡通過一些流量和拓撲的自動感知,進行流量替換中心的調度,從而提升整個網絡的吞吐,并在發現故障的時候迅速定位到是哪個鏈路出的問題,對鏈路進行調度、異常處理,讓整個訓練可以不中斷或者少中斷。
騰訊云的AIGC云存儲解決方案包括CFS Turbo、對象存儲COS、數據加速器GooseFS以及數據處理CI等,針對AI大模型數據采集清洗、訓練、推理、數據智理全流程,提供全面高效的云存儲支持,可將大模型的數據清洗和訓練效率提升一倍。
三、千卡集群每年降本2000萬,助力傳統企業AI轉型
目前,騰訊云智算可以靈活地支持公有云、私有云以及分布式云的輸出,成為了國內90%頭部大模型廠商的選擇,也幫助一大批IDC廠商實現了AIDC轉型。
沙開波解讀了騰訊云智算具體的落地案例,公有云的一些大模型的客戶在使用其完整的智算解決方案后,一個千卡集群每年的成本相比過去傳統的方式可以降低2000萬。
例如某社區電商的企業,在評論分析、圖像分類等OCR、CV業務上應用騰訊云智算解決方案,在去年下半年從海外的芯片更換成了騰訊云公有云上的國產芯片。在主要業務指標不變的前提下,只用了21天就完成了替換,其中兩周左右用來適配模型,一周左右改造推理框架,對不同芯片的適配非常高效靈活。

▲騰訊云智算客戶價值
在私有云的落地上,騰訊云智算主要的客戶是傳統的IDC公司,它們原本具有機房、硬件、網絡優勢,但是缺少云、軟件解決方案。
具體案例是,某傳統IDC企業通過與騰訊云智算合作,組建新一代具備AI Infra基礎能力的智算平臺,并通過租戶、計費管理等能力,為終端用戶提供一站式自主用云服務,實現到AIDC的轉型。該客戶還獲得了今年的可信云大會用戶最佳實踐獎。
四、談智算產業五大趨勢,保持兼容、開放、公私一體
縱觀整個智算產業,正處于快速發展的階段,從產業規模、應用場景到技術創新都在不斷拓展。沙開波與我們分享了騰訊云對未來趨勢的看法,主要有五個層面。
首先是大模型的規模仍在持續增加,這對AI Infra要求也越來越高,需要更大的算力集群,如何在更大集群下確保穩定性、應用性可以滿足要求是主要命題。
其次是多芯的能力。多芯一方面來源于供給端的挑戰,需要AI Infra產品去適配各種芯片的能力,比如金融等行業的一些央國企會有國產化訴求,需要云廠商去兼容、適配國產化的芯片。
第三是現在整體AI應用,處于一個快速發展的階段,在應用落地層面仍處于前期,未來可能會越來越快。從這個角度看,未來的推理比重可能也會逐步增加。
第四是AI場景變得越來越廣泛,很多行業還在探索的階段。從騰訊云智算和很多客戶的交流中,可以看出他們在這方面都有很強的訴求,未來肯定會有一些創新的業務應用落地。
最后是對數據安全的需求強烈。對很多國內企業來說,用于訓練推理的業務數據,只能在自己的機房里面完成,這對產品能力的部署提出比較多訴求。
談及騰訊云智算的整體戰略目標,沙開波稱騰訊云從ChatGPT出現后就一直在打磨產品,在原來的通用計算、云上去演進,讓原有的云基礎設施能更加滿足大模型時代對訓練、推理場景的訴求。
此次發布騰訊云智算品牌,主要還是出于把過去一系列的工作組合起來,變成一個整體解決方案對外提供,向行業傳遞更準確、更完整的信息。
相較其他友商,騰訊云智算品牌的主要戰略是整體的兼容性、開放性,以及公私一體。
結語:生成式AI推動智算產業飛速發展
憑借集算存網一體的高性能智算底座,騰訊云智算整合了多項優勢產品,展現了在智算領域的技術能力和潛力。
隨著生成式AI的持續發展,智算產業也許會乘著這股大模型的風“起飛”。騰訊云智算以其兼容性、開放性以及公私一體的戰略,不僅靈活地支持公有云、私有云以及分布式云的輸出,同時也成為了國內大量大模型廠商的選擇,幫助一大批IDC廠商實現向AIDC的轉型。