智東西(公眾號:zhidxcom)
作者 | 江宇
編輯 | 漠影

智東西5月16日消息,今日舉行的“逐光向新·智領未來”華為云AI峰會上,人工智能基礎設施的最新發展趨勢與行業應用實踐成為與會專家學者和產業代表共同探討的焦點。會上,華為云重點介紹了其最新的CloudMatrix 384超節點架構技術。

值得關注的是,華為云在會上還宣布了一項技術進展,將于今年第三季度推出名為“朝推夜訓”的靈活調度策略。該策略旨在白天進行模型推理,并在夜間等閑時進行模型訓練,預計可將算力資源利用率提升30%以上。

一、華為云再談CloudMatrix 384,發力新一代AI基礎設施

華為云副總裁黃瑾在致辭中提到,自2024年1月1日起截止到目前,華為云在保障運行安全方面保持了穩定記錄。他指出,“未來十年將是見證智能世界從無到有的關鍵時期。”

他談道,隨著AI模型復雜性的提升,集群網絡通信面臨挑戰,而CloudMatrix超節點架構旨在通過創新架構應對這一問題。該架構通過高速總線互聯和超大NPU點到點互聯帶寬,實現了全局內存的統一編址和統一通訊協議,從而打破了傳統算力瓶頸。

他指出,華為云CloudMatrix 384超節點具備MoE親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用六大領先技術優勢,以適應新一代AI基礎設施的需求。

同時,黃瑾強調Scaling Law依然有效,持續提升算力將驅動更智能、更強大的AI模型。他認為,AI已成為最具影響力的通用技術。據介紹,CloudMatrix 384在多節點并行計算的效率、網絡互聯帶寬以及內存帶寬等方面展現出一定的技術優勢。

此外,華為云還探索了如“1卡1專家推理”等新型計算模式,據稱該模式通過為每個專家模型分配專用計算資源,能夠顯著提升MoE(Mixture of Experts)等特定類型AI任務的推理效率,例如在Deepseek R1千億MoE模型上實現了高達3倍的吞吐量提升。

其Scale-out網絡設計目標是支持高達12.8萬張卡的集群進行無阻塞交換,這被認為是CloudMatrix 384的關鍵技術核心。

華為云“朝推夜訓”功能第三季度上線

二、硅基流動攜手華為云,深化AI應用合作

硅基流動聯合創始人兼首席產品官胡健也發布了演講。據他觀察,開源模型在AI應用領域的重要性日益提升,并且性能也在不斷進步。

胡健談道,硅基流動正與華為云緊密合作,并在技術上取得顯著進展。雙方聯合攻關,針對DeepSeek-R1模型的部署采用了大規模專家并行方案。

通過實施多專家負載均衡和極致通信優化策略,有效提升了模型的吞吐量和性能。實驗數據顯示,在保障單用戶20TPS水平的前提下,單卡解碼吞吐率已突破1920 Tokens/s。

據了解,硅基流動是國內首家向DeepSeek提供API的公司。借此機會,硅基流動的用戶數量實現了顯著增長,達到了之前的十倍。而近日,硅基流動DeepSeek-R1&V3推理服務也正式上架華為云云商店KooGallery。

華為云“朝推夜訓”功能第三季度上線

三、AI數據中心運維挑戰與行業應用洞察

華為云數據中心全球DC運維首席專家謝峰則深入探討了AI數據中心所面臨的獨特挑戰,包括超大規模光鏈路的波動性、高功率密度帶來的供電穩定需求,以及超高密液冷散熱的問題。

華為云“朝推夜訓”功能第三季度上線

他還介紹,華為云數據中心通過產品化實現了快速交付、低成本和低PUE。同時,數據中心在鋰電預測、液冷預測等智能化方面進行實踐,著力構建綠色低碳、穩定可靠、安全可信的云數據中心。

他還分享了CloudMatrix 384超節點數據中心在利用數據分析進行設備狀態預測方面的進展,特別提到了在鋰電預測的應用,通過擴展數據集范圍,CloudMatrix 384的預測準確率從最初的40%已提升至97%。

華為云“朝推夜訓”功能第三季度上線

AI正帶來巨大的產值,并重塑各行業的生產方式,保險行業也在經歷從人治向數據化治理的轉型。大家保險信息科技部總經理郝曉波指出,保險行業的AI化轉型是數字化轉型的自然延伸,敏捷化的AI戰略可能更適合傳統行業。

大家保險正借助華為云的算力及AI平臺,構建企業級AI中臺和業務應用,覆蓋智能營銷、風控投資等業務環節,以期推動保險業務的增長。

德勤中國合伙人劉曉羽則表示,德勤中國利用基于華為昇騰云和DeepSeek構建的AI平臺和工具,為客戶提供面向特定業務場景的AI咨詢和解決方案服務,預期將實現策略性的降本增效。

本次華為云AI峰會分享了AI基礎設施建設的最新進展,并就AI技術發展趨勢和應用實踐進行了探討。各位專家學者的分享,也為理解未來AI技術發展趨勢和行業應用的落地提供了具體的思路和借鑒。