智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 云鵬

智東西4月18日報道,今日,字節跳動旗下火山引擎宣布自研DPU(Data Processing Unit)成功應用,已部署上萬臺DPU服務器,成為業界少數幾家具備自研DPU能力的云廠商。

火山引擎宣布推出三款基于自研DPU的計算實例,分別基于NVIDIA GPU、Intel CPU、AMD CPU,其中NVIDIA GPU計算實例相較上一代實現3倍性能提升。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

同時,火山引擎還推出了新版機器學習平臺,上線模型效果對比等服務,平臺支持單任務GPU萬卡集群大模型訓練、微秒級延遲網絡;推出智能推薦-高速訓練引擎,據稱支持100GB-1TB超大模型高速訓練。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

當下正值大模型掀起AI時代的新浪潮,火山引擎試圖從算力、平臺等各層面為客戶提供必要的“入場券”。

火山引擎總裁譚待談道,國內有數十家做大模型的企業,大多已經在火山引擎云上,包括MiniMax、智譜AI、毫末智行、昆侖萬維等知名企業。比如MiniMax據稱是首家在公有云上實現千卡訓練的公司,于2022年與火山引擎合作推進大模型常態化訓練,并推出了超大規模推理平臺,據稱支撐單日過億次調用。今日,金山辦公WPS AI宣布將嵌入全線協同辦公產品,WPS AI采用的正是MiniMax大模型。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

可以看到,“火山引擎+MiniMax+WPS”這樣的國內大模型實踐,正在開辟有別于“微軟+OpenAI+Office”的大模型落地新通路。

會上,智東西與部分媒體對火山引擎總裁譚待、字節跳動副總裁楊震原進行的采訪。

當智東西問到火山引擎圍繞生成式AI在IaaS、PaaS、SaaS領域有什么樣的布局時,譚待稱,就像記者提到的AWS等云廠商選擇與第三方合作(如推出生成式AI平臺支持企業調用第三方大模型),火山引擎也是這個思路。火山引擎本身不做大模型,而是服務于大模型創業公司,共同開展對外服務。

火山引擎是字節跳動于2021年6月推出的云服務業務板塊,至今逐漸完善了IaaS+PaaS+SaaS云服務體系。敏捷迭代、數據驅動、體驗創新是火山引擎的核心戰略點,圍繞這些要素本次火山引擎還推出了分布式云原生平臺、混合云veStack、火山引擎管理駕駛艙Plus、云游戲、創意互動Vlog等不同層面新品。

會上,火山引擎宣布與字節跳動國內業務并池。基于內外統一的云原生基礎架構,抖音等業務的空閑計算資源可極速調度給火山引擎客戶使用,據稱離線業務資源分鐘級調度10萬核CPU,在線業務資源也可潮汐復用,彈性計算搶占式實例的價格最高可優惠80%以上。

一、自研DPU落地超萬片,計算實例3倍性能提升

天下武功,唯快不破。面向企業敏捷迭代的算力需求,譚待宣布,火山引擎DPU目前已成功應用,在字節內部已部署上萬臺DPU服務器。

譚待解讀道,火山引擎DPU全面加速計算、存儲、網絡云化,能實現計算“0”損耗、網絡性能提升4倍、存儲性能提升1倍。2022年7月,火山引擎傳出將DPU板卡項目命名為“氦卡”,英文名為HeCard,據稱對標阿里云自研的CIPU。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

不到一年時間之后,今天,火山引擎宣布推出三款基于自研DPU的計算實例,包括:

1、NVIDIA GPU計算實例,據稱相較上一代實現3倍性能提升。

2、Intel CPU計算實例,據稱整機性能提升超93%,單核性能提升超13%,小規模(小于12核ECS實例)性能提升超6倍。

3、AMD CPU計算實例,據稱整機性能提升超138%,單核性能提高超39%,小規格性能提升達10倍。

多云融合是市場的另一大趨勢,但云的分布式挑戰廣泛存在。

為此,火山引擎推出了一系列新產品,包括:

1、推出分布式云原生平臺,基于超20萬節點、千萬級核支持超大規模驗證,提供一致云原生體驗,支持低成本多云應用遷移。

2、推出多云CDN平臺,據稱能促進綜合成本降低10%,運維人力減少50%,遇到故障支持秒級切換。

3、推出混合云veStack,通過功能及架構演進,支持汽車、政府、能源等客戶的混合云需求。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

譚待說,企業需要在數字化時代快速開發、快速迭代,那就需要選擇上云,做好多云策略,進而基于云上智能進行創新。

會上,晶泰科技聯合創始人兼CEO馬健圍繞《云上自動化智能化藥物研發》主題,分享了基于火山引擎服務的智能化藥物研發實踐。

二、支持萬卡多模態大模型訓練,推出智能推薦高速訓練引擎

譚待緊接著談到了近期熱門的大模型。國內知名企業如毫末智行、MiniMax、智譜AI、昆侖萬維等都在火山引擎支持下進行多模態大模型訓練迭代,覆蓋智能駕駛、科研、金融等多個領域。

為了支持通用智能時代的企業創新,本次火山引擎在智能方面釋放了兩大更新:

1、推出智能推薦-高速訓練引擎,軟硬一體支持100GB-1TB超大模型高速訓練,高可用、可集成,助企業降本增效。

2、升級火山引擎機器學習平臺,發布模型效果對比服務,支持單任務GPU萬卡集群大模型訓練、微秒級延遲網絡。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

多模態大模型創業公司如何實現敏捷迭代?包括知名大模型企業MiniMax、自動駕駛企業毫末智能及字節自有的抖音平臺的相關負責人帶來了實踐分享,背后都離不開火山引擎提供的服務。

MiniMax聯合創始人楊斌談到了自研大模型的思考與實踐,團隊自2020年底創業之初考慮的就是技術如何啟用、產品如何構建和算力從哪里來的問題,應該是第一家在公有云上實現千卡訓練的公司,去年與火山引擎合作做千卡以上的常態化訓練,并推出了超大規模推理平臺,據稱支撐單日過億次調用,實現了技術與產品的迭代閉環。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

字節跳動副總裁楊震原帶來了抖音的機器學習實踐,他認為,數字化時代更需要定量明確目標,機器學習能找到更優解,這在抖音的效果廣告、店鋪選品、優惠券發放、運力調度、自動駕駛等方面都有驗證。但用好機器學習也面臨復雜和昂貴兩大問題,為此抖音采用了火山引擎推出的一站式云原生機器學習平臺,讓訓練快速跑起來。

楊震原認為,業務創新需要試錯,試錯要大膽、敏捷,但試錯也一定要控制成本。通過潮汐、混部等方式,火山引擎實現資源的高利用率和極低成本。以抖音推薦系統為例,工程師用15個月的樣本訓練某個模型,5小時就能完成訓練,成本只有5000元。火爆全網的抖音“AI繪畫”特效,從啟動到上線只用一周多時間,模型由一名算法工程師完成訓練。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

毫末智行定位于自動駕駛人工智能技術,目前已推出全球首個自動駕駛生成式大模型DriveGPT(雪湖·海若)。毫末智行CEO顧維灝認為,我們可以將自動駕駛分為1.0硬件驅動、2.0軟件驅動、3.0數據驅動三個時代,為此公司建立了數據、算法、車端、云端的閉環,并推出了DriveGPT,背后離不開火山引擎專門打造的智算中心提供67億億次/秒的高性能運算,以及2T/秒的高性能存儲及800G/秒的網絡服務。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

三、推出三款數據驅動新品,助力平安銀行等數字化轉型

在數據驅動方面,本次,火山引擎推出三款新品:

1、火山引擎LAS,助力企業構建Serverless智能湖倉。據稱其性能為開源Spark的270%,開源Presto的260%,支持Serverless全托管,比傳統方案降低綜合成本30%以上。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

2、火山引擎Serverless流式計算Flink,基于字節跳動超100億級QPS實踐,穩定性提升超50%,同樣支持Serverless化并支持批流一體等多模態計算。

3、 火山引擎管理駕駛艙Plus,支持0代碼搭建,實時觀測戰略目標達成進度,支持小程序、APP等多端覆蓋的移動化在線。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

會上,平安銀行行長特別助理蔣新發以《智能化銀行3.0,零售轉型新篇章》問題,分享了基于火山引擎數據驅動服務的智能銀行實踐。

四、聚焦體驗創新,上線6款音視頻產品及企業級服務

視頻正朝著更高清、更互動、更沉浸方向發展,比如火山引擎在2022年助力了提升世界杯用戶體驗,累計直播觀看達106億人次。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

本次,火山引擎帶來六款音視頻方面的產品及全新升級,包括推出火山引擎云游戲、創意互動Vlog、AR互動營銷方案、RTC-WTN音視頻服務,升級數字人產品、音視頻云端一體veVOS服務。

除了用戶體驗,火山引擎還帶來了企業用戶體驗提升產品更新。火山引擎升級企業數字化辦公IT基礎設施一飛連,據稱支持身份、網絡、終端一站式IT管理,以及云、網、端一站式辦公組網,體系化保證辦公安全。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

根據官方數據,飛連已覆蓋超100萬臺終端設備,比如小米公司就通過這一服務支持員工數字化辦公,提高效率和安全。

此外在生態方面,火山引擎本次還推出了“生意云”,打造生意增長一站式數字化解決方案。

字節參戰!火山引擎推出大模型訓練云平臺,自研DPU實例性能提升3倍

結語:云上智能,火山引擎突圍的關鍵一戰

當下,大模型正推動新一波AI浪潮,推動云計算服務的范式發生變化。本次,火山引擎在例行春季發布會上透露了其在自研DPU、計算實例、AI PaaS 平臺、數據智能PaaS平臺及應用創新等方面的進展,其中有一大部分都契合了當下的通用智能趨勢,展現了這家基于強大抖音等集團主業務的云廠商的快速發展的實力。

智能無疑是火山引擎突圍成云大廠“新貴”的關鍵一城。2021年脫胎于字節跳動布局IaaS+PaaS+SaaS完整云服務體系,2022年開始提供“產品+場景”的解決方案,并陸續推出數智平臺VeDI等高技術PaaS服務平臺,今年,火山引擎的關注點也快速聚焦自身擅長的智能領域,有望為云廠商格局帶來重大影響。