智東西(公眾號:zhidxcom)
作者 |? 云鵬
編輯 |? 漠影

今天,AI正給整個手機產業帶來巨大影響和變革,從底層芯片到操作系統,再到上層應用生態,幾乎都在被AI重構。

越來越復雜的模型、越來越強大的AI Agent,都對計算效率、延遲、功耗、內存帶寬等方面提出了新的挑戰。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

從蘋果到三星、聯發科、小米,手機芯片玩家們都在加速AI能力在芯片端的集成,上周蘋果剛剛發布的A19芯片,直接在GPU的每一個核心中都塞入了一顆神經網絡加速器。

芯片底層技術創新,是加速端側AI落地、推動AI手機體驗升級的核心支撐。在這樣的行業趨勢下,芯片底層技術領域的核心玩家Arm再次向行業拋出一枚AI重磅大招。

近日,Arm在上海正式亮出了旗艦級Arm Lumex計算子系統(CSS)平臺,這也是Arm CSS平臺的一次重要更名和升級。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

Arm Lumex包括新的CPU、GPU、DSU等模塊,在性能、能效顯著提升的同時,突破性地將第二代可伸縮矩陣擴展(SME2)技術引入到CPU中,這也是這類技術首次在安卓手機芯片中落地。而據筆者了解,蘋果芯片CPU中使用的仍然是第一代SME技術。

Arm特別強調稱,這是一個完整的“AI優先”的平臺。

今天,AI正成為全行業瞄準的核心方向,而面向這一新時代,Arm的計算平臺正成為AI與個人計算發展不可或缺的計算底座。此次Arm重磅技術升級背后有哪些關鍵思考、對產業和消費者有哪些價值和意義?我們將一起深入挖掘。

一、CPU裝上“AI加速器”,攜手支付寶、vivo等企業,讓端側AI從“能用”到“好用”

AI手機經過近兩年的迭代,在發展方向和AI功能種類上已經基本達成行業共識。今天各家的重點毫無疑問是端側AI體驗的優化。在端云結合的混合AI成為基礎模式之下,如何更高效地在手機上落地模型、如何在手機上實現更佳的AI應用體驗,成為需要行業共同破解的難題。

縱觀Arm整場發布會,AI是當下Arm技術迭代圍繞的核心主題,正如Arm高級副總裁兼終端事業部總經理 Chris Bergey所說,新的Arm Lumex是一個“AI優先”的平臺。

如何實現AI優先,Arm此次最核心的改進是將SME2技術引入了CPU中。

在5倍性能提升、3倍能效提升這些亮眼數字的背后,Arm實際上在做的就是給CPU這一手機中最核心、通用性最強的模塊配備新的矩陣加速器,讓AI時代的各類復雜計算變得更快、更省電,進而讓我們能在智能手機上獲得更好的AI體驗。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

目前,SME2這一技術已經獲得了阿里巴巴、支付寶、三星System LSI、騰訊、vivo等科技領域頭部企業的支持和采用。基于SME2技術,Arm與這些合作伙伴深度合作,已經在諸多AI應用中實現了直觀的升級。

總體來看,這種AI體驗的升級最突出的特點就是讓AI功能從“能用”到“好用易用”前進了一大步。

如何去定義“好用易用”呢?就是要讓設備“更懂你”,且能“無縫響應”。

手機行業的創新與競爭,是最貼近用戶應用場景的領域之一。過去卷攝影、快充等,是優化單點場景痛點;如今在AI時代,生成式AI應用以及AI與計算攝影、通信、性能等各領域的融合成為焦點,其本質是用AI重構各場景價值,實現從“被動響應”到“主動服務”的轉變。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

我們在現場看到了一項“智能瑜伽教練”的演示,在演示中,AI教練可以快速流暢地將文本轉換為語音進行輸出,據稱其生成速度提升了2.4倍之多,這樣用戶就可以在健身過程中即時獲得姿勢反饋與指導,并且全程都不用擔心設備的電池續航問題。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

▲智能瑜伽教練

其實AI健身教練類似功能我們并不陌生,但讓AI真正能夠像真人一樣快速、準確、高效地與我們進行交流、交互,仍是產業持續努力的目標,Arm無疑將這一愿景向現實推近了一大步。

在Arm與支付寶和vivo的三方深度合作中,AI手機體驗的升級給我帶來了更多驚喜。

支付寶端側AI引擎xNN集成了SME2技術,在vivo的旗艦智能手機上完成了基于Arm SME2技術的大語言模型推理驗證,在預填充與解碼階段,性能分別實現了超過40%和25%的提升,大語言模型交互響應時間縮短了40%。據稱,在SME2加持下,vivo手機實現了額外20%的性能提升。

從應用效果來看,vivo手機在一些視覺、語音、文本等AI計算任務中,性能都實現了顯著加速,比如在全局離線翻譯這樣的真實場景中,AI響應時間明顯加快,讓整個翻譯的過程更加流暢自然。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

▲本地離線實時翻譯

可以說,這些翻倍式的改善,都標志著CPU后端能力的重大突破,證明了SME2可為終端設備帶來更快的實時生成式AI體驗,端側AI的各類本地功能,都得到了顯著提升。

再來看看用戶非常看重的計算攝影。搭載SME2單核心運行神經攝像頭降噪功能,可以在1080P分辨率下實現每秒120幀的超高幀率,即使在4K高分辨率下,也能實現每秒30幀的幀率表現。這意味著,我們日常使用手機拍照,即使在光線昏暗的場景中,也可以拍出更加清晰、銳利的照片。

縱觀此次發布的產品和技術,從CPU、GPU到軟件庫的一系列升級,都讓我們看到了Arm Lumex在AI時代給廠商、開發者、消費者帶來的價值。

而對于開發者而言,從軟件工具到生態層面的完善支持更能讓他們迅速將這些新技術與自身的產品相結合,將AI創新成果更快推向市場。

根據Arm預測,到2030年,SME與SME2技術將為全球超過30億臺設備新增超100億TOPS的計算能力,端側AI性能呈現指數級提升。

二、深耕計算數十年,年均兩位數IPC提升,用技術和生態領跑行業

今天,我們看到Arm基于底層技術創新實現了移動設備端側AI性能的大幅提升,實現這一切,一方面源于Arm的技術硬實力,另一方面也源于數十年來Arm在移動技術和生態領域的持續引領,在技術和產業發展的關鍵節點,Arm始終跑在前列。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

從技術演進來看,Arm對AI的布局實際已持續十余年:Armv8架構時代,通過優化NEON模塊以提升AI效率;Armv9架構引入SVE2與SME以適配更多AI場景;到Armv9.3-A架構時代,集成SME2技術,優化現代AI工作負載的吞吐量、延遲與精度。Arm通過架構層面改進SoC設計,為AI應用的爆發提前蓄力。

如今,智能設備的海量爆發讓計算變得無處不在,從手機、PC、汽車到各類AIoT設備,萬物智聯的趨勢變得愈發顯著。與此同時,產業對能效比的極致追求、對功耗的死磕、對大模型的支持優化、對AI算力的需求都成為行業共同面對的挑戰——Arm終于等到了AI的東風。

回到手機行業,如果只是架構上的革新,還不足以跟上端側AI應用的步伐。ArmLumex計算子系統(CSS)平臺給出了新的解題思路,它從系統性層面,集成搭載SME2技術的最高性能Arm CPU、GPU及系統IP,加速端側AI的落地和普及。

軟件工具和生態層面,KleidiAI已經集成至所有主流移動操作系統及AI框架中。開發者能在各類Arm設備上獲得最佳AI性能,無需進行任何額外操作。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技

縱觀手機行業的發展,Arm一直跑在技術浪潮的最前沿。每一個版本更新都為行業注入新的活力,給行業玩家提供最堅實的底層技術“資源池”。Arm及其生態系統在奠定計算基礎方面所做的努力,讓行業能夠時刻把握新興的機遇。

三、從手機PC到全生態,算力產業激變,模式轉型構筑“核心基石”

今天,AI新浪潮正在快速席卷整個科技行業。

終端大廠們紛紛“All in AI”,從產品到服務圍繞AI升級;大模型迭代從半年更、月更到今天的周更,競爭進入白熱化階段;底層芯片層,各路芯片廠商都在產品中密集融入AI新特性。

從手機、PC、汽車、物聯網到數據中心,從十億級、百億級到萬億級、數十萬億級模型,AI正在快速重構各行業各領域,同時也給計算產業也帶來了新的挑戰和機遇。

30億設備100億TOPS算力!解密Arm CPU最強AI黑科技Arm顯然是在這股AI浪潮中行動頗為積極的一家。作為驅動AI應用的技術基石,不論是要快速上市兌現性能價值,還是要深度設計配置,從高端智能手機、PC到新興AI智能設備,Arm總能幫助廠商找到峰值性能、持續能效與芯片面積之間的靈活平衡“甜點”。

AI浪潮之下,曾深耕幕后的底層技術廠商正逐步走向臺前,以核心技術重塑產業格局。

全力沖刺AI的Arm,從技術到生態,從產品到服務,已經全面做好了準備。

結語:打牢AI時代計算根技術,端側AI提速

今天,從安卓到蘋果生態,端側AI的快速發展需要更多底層技術創新的支撐,AI應用體驗仍有較大提升空間,Arm Lumex的發布,給行業提供了一套扎實的計算平臺基礎,讓廠商和開發者們面對AI這場硬仗有更充足的彈藥。

未來,AI手機之戰會愈發焦灼,芯片層的創新仍然會長期是行業競爭的焦點領域。從廠商到開發者,面對AI時代的機遇和挑戰,Arm生態已經成為AI創新的肥沃土地。