芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西9月10日報道,今日,Arm在上海發布全新Arm Lumex計(ji)算子(zi)系統(CSS)平臺,專為旗艦級智能手機及下一代PC加速AI體驗而打造,可實現兩位數的性能增長。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

這套先進計算平臺集成了搭載第二代可伸縮矩陣擴展(SME2)技術的最高性能Arm CPU、GPU及系統IP,為桌面級移(yi)動游戲、實時翻譯、智能助(zhu)手、個(ge)性化(hua)應用等(deng)各種實時端(duan)側AI用例帶來更流暢、更快速的體(ti)驗。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

搭載SME2的Arm C1 CPU集群實現了顯著的AI性能提升,包括AI性能提升高達5倍,語音類工作負載延遲優化至4.7倍,經典大語言模型任務性能提升多達4.7倍,音頻生成速度提升多達2.8倍

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

Lumex能夠(gou)在(zai)設備端本地實現(xian)更(geng)快、更(geng)安全且隨時可用(yong)的智(zhi)能體驗(yan)。SME2已被阿(a)里巴巴、支(zhi)付寶、三星(xing)System LSI、騰訊(xun)、vivo等業(ye)界領先(xian)的生(sheng)態伙伴采(cai)用(yong)。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

Arm的每個計(ji)算子系(xi)統(CSS)都(dou)針(zhen)對細(xi)分市(shi)場的獨特(te)需(xu)求進(jin)行了調整,通過縮短(duan)設計(ji)用(yong)時和降低(di)開(kai)發風(feng)險來加(jia)快(kuai)開(kai)發,已獲得超過16次授權,其中(zhong)超過一半(ban)都(dou)是去年完成的。

Arm還將發(fa)布面向PC、物(wu)聯(lian)網和邊緣計(ji)算(suan)的(de)CSS平臺。

一、Lumex:多款CPU與GPU按需組合,針對3nm優化

針對旗艦級設備,Arm Lumex CSS平臺連續6年實現兩位數的每時鐘周期指令數(IPC)性能(neng)提升。

全新Arm Lumex平臺包含以下核心組件:

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

(1)新一代搭載SME2技術的Armv9.3 CPU:包括Arm C1-Ultra和Arm C1-Pro,為(wei)旗艦設(she)備提供支持,設(she)備端性能可(ke)提升(sheng)多達5倍、能效提升(sheng)多達3倍。

(2)Arm C1-Premium:專為(wei)次(ci)旗艦市場(chang)打造,可提(ti)供一流的面積效率。

(3)Arm Mali G1-Ultra GPU:配備新一代光線追蹤(zong)技術,在實(shi)現先進的圖形和(he)游戲體驗同時,還可提升整體AI性能。

(4)Arm C1-DSU:Arm迄今為止(zhi)最靈活(huo)、高能效且具多種電源模式的(de)DynamIQ Shared Unit(DSU)。

(5)針對3nm工藝節點優化的(de)物理實現(xian)。

(6)跨軟(ruan)件棧(zhan)的深度(du)集成,為使(shi)用KleidiAI軟(ruan)件庫的開發者提供無(wu)縫的AI加速體驗(yan)。

相比(bi)(bi)Cortex-X925,C1-Ultra CPU的(de)單線程(cheng)性能(neng)提高25% ;相比(bi)(bi)Cortex-A725,C1-Pro的(de)持續(xu)能(neng)效提升12%;相比(bi)(bi)Immortalis-G925,Mali G1-Ultra的(de)性能(neng)提升20%,能(neng)效提升9%。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

合作伙伴可靈活選擇使用Arm Lumex的方式,來打造SoC芯(xin)片。

例如,可以(yi)直(zhi)接采(cai)用(yong)Arm交付的平臺(tai),并(bing)借助為(wei)其需(xu)求定制的先進(jin)物(wu)理實(shi)現方(fang)案,從而獲得縮短(duan)產(chan)品上市時間和快(kuai)速兌現性能價值等雙重(zhong)優勢(shi);也可以(yi)根據目標市場,對平臺(tai)寄(ji)存(cun)器傳(chuan)輸級(RTL)設(she)計進(jin)行配置,并(bing)自(zi)行完成(cheng)核心(xin)模塊的硬化工作(zuo)。

Arm Lumex為合作(zuo)伙伴提供了(le)充(chong)分的(de)自由度,使(shi)其(qi)能(neng)從高端智能(neng)手機(ji)、PC到新興AI優先設備的(de)各類產品中,實現峰值性能(neng)、持續能(neng)效與芯片面積之間的(de)靈活平衡。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

二、將AI加速集成到CPU中,用SME2大幅提升AI性能 ?

新(xin)款(kuan)CPU的(de)一大核心技術是SME2。該技術能加快設備(bei)端CPU直接運行模型(xing)及(ji)AI工具的(de)速度(du)。

Arm高級副總裁兼終端事業(ye)部總經理Chris Bergey說,AI已成為下一代移動與消費技術(shu)的支撐底(di)座,依托Arm Lumex平臺,Arm持續(xu)提升端側AI體(ti)驗,正積(ji)極將SME2技術(shu)擴展至每一個CPU平臺。

在實(shi)際場(chang)景中,SME2技術將響(xiang)應速度與運行效率提升至新水(shui)平。

SME2是最新(xin)CPU集群的(de)(de)一項(xiang)關(guan)鍵特性,為高(gao)(gao)效執行單(dan)側AI而生,就是給CPU配備了一個新(xin)的(de)(de)矩(ju)陣加速器,讓復雜計(ji)算變得更(geng)快更(geng)省電,同時支持SME2的(de)(de)新(xin)硬件與CPU、GPU等其他計(ji)算單(dan)元分(fen)工協作,實現更(geng)高(gao)(gao)效的(de)(de)端(duan)側AI異構計(ji)算。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

例如,得益于SME2技術,“智能瑜伽教練”演示應用的文本轉語音生成速度提升多達2.4倍

此外,Arm、支付寶與vivo的三方合作,將大語言模型的交互響應時間縮短了多達40%,證(zheng)明了SME2可為(wei)終端設備帶來更(geng)快速的實時生成式AI體(ti)驗。

據vivo高級副總裁、CTO施玉堅分享,vivo藍晶芯片(pian)技術(shu)棧新(xin)增對SME2的支持(chi),vivo計算加速平臺VCAP已全面支持(chi)SME2指令(ling)集,對視覺、語音(yin)、文(wen)本等AI計算任務實現(xian)了(le)顯著的性(xing)能(neng)加速,例如在全局離線翻譯場景,開啟SME2硬件(jian),能(neng)實現(xian)額外20%的性(xing)能(neng)收益。

再比如,在搭載SME2的單個核心上運行神經攝像頭降噪功能,可在1080P分辨率下實現幀率超120幀/秒(fps),或在4K分辨率下實現幀率達30fps。這意(yi)味著智能(neng)手(shou)機用(yong)戶即(ji)使(shi)身處光線最暗的場景,也能(neng)捕捉到更銳(rui)利、清晰(xi)的圖像。

Arm預計到2030年,SME與SME2技術將為超過30億臺設備新增超100億TOPS的計算能力(li),為端側AI性(xing)能帶來(lai)指數級(ji)躍升(sheng)。

三、全新Mali G1-Ultra GPU:AI性能提升20%,光追性能翻倍

Arm GPU的芯片累計出貨量已突破120億顆

全新Mali G1-Ultra GPU專為游(you)戲玩家設計(ji),擁有14個核心,可將AI推理性能提升最高20%,顯著增強各類實時應用的響應速度;在各類圖形基準測試中實現了20%的性能提升。

其第二代光線追蹤(Ray Tracing Unit v2, RTUv2)技術顯著提升光照、陰影與反射效果,使光線追蹤性能提升至前代的2倍,并實現每幀功耗降低9%為手游(you)玩家帶來高保真(zhen)、主機(ji)級畫質。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

同時,Mali G1-Premium(6~9核心)與(yu)Mali G1-Pro(1~5核心)兩款GPU,也為硬件資源受限的設(she)備提供了更(geng)出色的性能與(yu)能效表現。

四、跨平臺易遷移,滿足生態系統AI開發需求

Lumex具備靈活性和可定制性,并提供全新的可遷移性:
  • Gmail、YouTube、Google Photos等谷歌應用現已全面支持SME2 ,搭載Lumex的設備一經上市即可無縫運行;
  • 跨平臺可遷移性意味著針對安卓構建的優化功能可無縫擴展至采用Arm架構的Windows及其他操作系統;
  • 支付寶等合作伙伴已成功驗證:依托SME2技術,終端設備上的大語言模型可實現高效運行。

蘋果、三星、聯發科等芯片巨頭正積極集(ji)成AI加速功能,推動端側(ce)AI向(xiang)(xiang)更快速、更高(gao)效的方向(xiang)(xiang)發展。

阿里巴巴淘天集團業務技術(shu)MNN負責人(ren)姜霄(xiao)棠說(shuo),通過(guo)與 SME2的深(shen)度集成,MNN現已能(neng)在智能(neng)手機端,為(wei)通義(yi)千問等十(shi)億(yi)參(can)數(shu)級大模型提(ti)供低延遲的量化推理能(neng)力。

支(zhi)付(fu)(fu)寶終端技術負(fu)責人翁欣旦談道,在Arm、支(zhi)付(fu)(fu)寶與(yu)vivo的(de)三方密(mi)切協作下,支(zhi)付(fu)(fu)寶已在vivo新(xin)一(yi)代旗艦智能手機上(shang)完成(cheng)了基(ji)于Arm SME2技術的(de)大語言(yan)模型推理驗證。結(jie)果顯(xian)示,在預填(tian)充與(yu)解(jie)碼階段,其性能分別實現了超過40%和25%的(de)提升。

據騰(teng)訊(xun)機器學習平臺專家楊曉峰分享(xiang),SME2技術通過突破關鍵(jian)性(xing)能瓶頸(jing),高效助力大(da)語言模(mo)型在(zai)移動端落地部署,如騰(teng)訊(xun)混元大(da)模(mo)型,為(wei)端側大(da)語言模(mo)型提供強(qiang)勁加速,最終帶來更(geng)優質(zhi)的(de)用戶(hu)體驗(yan)。

開發(fa)(fa)者(zhe)可在Arm Lumex平臺上(shang)獲取開機(ji)即用的(de)AI開發(fa)(fa)體驗(yan),借助KleidiAI調(diao)用SME2技術帶來的(de)性能優勢。

KleidiAI已(yi)集成至所有主(zhu)流移動(dong)操作系統及AI框架中,包括PyTorch ExecuTorch、谷(gu)歌(ge)LiteRT、阿里巴巴MNN、微軟ONNX Runtime等。開發者無需修改任何代碼,就能自動(dong)取得SME2的加(jia)速能力(li)。

Arm把手機AI芯片開發變簡單!最強CPU塞進AI加速,vivo阿里都說好

結語:為端側AI加速提供定制芯片套餐

Arm Lumex是Arm面向消(xiao)費計(ji)算市場(chang)的(de)最先進(jin)CSS平(ping)臺,也被Arm視作開啟新時代(dai)智(zhi)能體驗的(de)基石(shi)。

面(mian)向OEM廠商及開發者,Lumex可(ke)提供所需工具(ju),助力其在關鍵端側(ce)場景實現兼具(ju)個性化、隱私保障與(yu)高性能的AI體驗。

這標志著Arm戰略的重大(da)轉(zhuan)變,從(cong)提供(gong)半導體(ti)IP到提供(gong)全面的AI平臺解決(jue)方(fang)案(an),以加速(su)客戶芯片設計(ji)及開(kai)發(fa)流程,滿足日益增長的設備端實時、保障(zhang)安全隱私、始(shi)終可用的AI應用需(xu)求。