芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西12月18日報道,在12月15日舉行的2023英特爾新品發布會暨AI技術創新派對上,英特爾正式推出第五代英特爾至強可擴展處理器(代號Emerald Rapids)。這也是第五代英特爾至強可擴展處理器首次在中國亮相。

第五代英特爾至強可擴展處理器在每個核心中內置了人工智能(AI)加速器,在提高AI、科學計算、網絡、存儲、數據庫、安全等關鍵工作負載的每瓦性能以及降低總體擁有成本(TCO)方面具有出色表現。英特爾執行副總裁兼數據中心與人工智能事業部總經理Sandra Rivera稱該處理器為AI加速而生,旨在為在云、網絡和邊緣環境中部署AI的客戶提供更高的性能。

英特爾與生態伙伴分享了這款全新處理器在京東云、百度智能云、阿里云、火山引擎的成功實踐及其應用價值。會后,英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立、阿里云服務器研發事業部高級總監王偉、火山引擎IAAS產品負責人李越淵接受芯東西等媒體的采訪,從云計算廠商的視角分享了生成式AI所需的關鍵芯片能力。

超過20家中國OEM/ODM合作伙伴已研發并將提供基于第五代英特爾至強可擴展處理器的系列服務器產品,超過7家中國云服務提供商已驗證并將提供基于第五代英特爾至強的云服務實例。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

一、每個內核內置AI加速功能,可微調200億個參數的大模型

第五代英特爾至強可擴展處理器每個內核均具備AI加速功能,無需添加獨立加速器,即可處理要求嚴苛的端到端AI工作負載,能夠微調多達200億個參數量的大語言模型,推理性能相較上一代提高42%,延遲低于100毫秒。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

該處理器擁有多達64核,L3緩存是上一代產品的近3倍;具備8條DDR5通道,內存帶寬高達5600MT/s,且采用英特爾超級通道互聯(英特爾UPI)2.0以增加跨插槽內帶寬,提供高達20GT/s的傳輸。

阿里云服務器研發事業部高級總監王偉認為,大模型是顯存帶寬密集型、顯存容量密集型的,有時對于算力的“饑渴度”并不是非常高,因此在支撐生成式AI應用場景方面,建議未來通用處理器應更多關注內存帶寬和內存容量的提升。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

得益于L3緩存、內存帶寬及一些加速引擎的提升,基于第五代至強的阿里云第八代實例g8i實現了更好的性能表現,AI推理性能提升25%,QAT加解密性能提升20%,數據庫性能提升25%,音視頻性能提升15%。第八代實例g8i已經能夠為用戶實現快速的通義千問模型部署。

相較上一代產品,在相同的熱設計功率范圍內,第五代英特爾至強可擴展處理器可在進行通用計算時將整體性能提升高達21%,并在一系列客戶工作負載中將每瓦性能提升高達36%。對于遵循典型的五年更新周期并從更前一代處理器進行升級的客戶而言,其TCO最多可降低77%。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求▲第五代英特爾至強可擴展處理器Emerald Rapids

由于該處理器與上一代產品的軟件和平臺兼容,客戶能夠升級并大幅增加基礎設施的使用壽命,同時降低成本和碳排放。

王偉說,同架構帶來的好處是后續不需要再重新研發,云廠商更多考慮將自身較有優勢的基礎軟件棧與第五代至強的算力提升、加速引擎相結合,給云上客戶提供更簡潔易用的云端算力、更好的應用推薦。

火山引擎IAAS產品負責人李越淵分享了類似看法,火山引擎更多關注的是如何讓云上客戶非常容易地從上一代過渡到新版本上,其策略是在第三代實例上進行算力的迭代和升級,以便其客戶能夠更平滑、更友好、更低門檻地將第五代至強用起來。在遷移過程中,火山引擎和英特爾進行了很多深度交流和定制方面的互動,確保針對不同場景、不同應用的情況下,其CPU最后的產出是最符合客戶需求的。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

李越淵認為,云上彈性非常關鍵,很多服務器天然會閑置,以確保能撐住大的應用需求量。有了彈性能力后,需要考慮性能和成本的性價比,在閑置集群上其實對成本的容忍度會很高,就像今天業界很成熟的搶占式實例模式,價格根據供需變化而浮動,客戶能獲得一個比較低廉的價格,在這樣的情況下CPU也能獲得較高性價比。

他談道,目前一些大客戶上已經跑通了這樣的模式,火山引擎與一些大客戶已經在用CPU做一些比較大規模的推理了,隨著CPU在AI能力上越來越強、性能越來越好,這個性價比會更高。

他還強調了互連技術的重要性,生成式AI不僅對CPU的算力、內存、帶寬提出了更高要求,隨著模型變大,單芯片甚至但服務器的能力未必能夠滿足生成式AI的訴求,因此互聯互通的能力也非常重要。

王偉補充說,今天在一個大模型訓練中,通信時長大概占整個時長的20%,需要通過大規模網絡互連來降低這部分的時長,獲得更好的收益。互連網絡拓撲會隨著選擇的芯片與每家企業的技術方向有一定區別,物理帶寬可以有效減少在訓練過程中因為模型被拆分導致CPU或AI芯片之間通信量對整個訓練時長的影響。

“未來效率提升是軟件+硬件來做組合,進一步提升算力利用率。”王偉提到大模型還在初期階段,業界正在嘗試通過框架、引擎去做軟件優化,或通過一些算子優化,來提升模型訓練或推理的效率。

二、CPU已經能跑大規模生成式AI推理,未來AI應用對算力需求會逐漸下降

CPU是當前AI推理市場的主流芯片。據王偉分享,GPU適合高并發、單指令多數據處理模式,如果單看AI訓練或推理場景的數據處理,GPU架構比CPU有更大優勢,這也是為什么英特爾要在CPU中內置英特爾AMX加速器;而CPU強大在對分支預測和串行和高頻處理上有更好的表現,以通用計算為主的芯片在推理上更多側重于發揮SoC內部集成的向量執行單元、高并發執行單元來做AI處理過程中的一部分數據并行加速。

“任何訓練和推理過程都不是說數據在那里一放,CPU就去處理了。”王偉說,“無論是數據預處理還是數據后加工,都有CPU必須要去承擔的角色,所以它是沒有辦法完全拆開的。”

“我們發現目前生成式AI對于CPU已經不算挑戰了,你可以輕松在CPU上跑各種生成式AI的模型。”他談道,阿里云已經嘗試用CPU跑一些較大規模的推理,如12B、70B、72B的模型,目前都已經可以在單臺通用服務器上運行。

據英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立分享,做芯片需要兩三年,根據客戶反饋進行修改的工作需要提早進行,多年來,英特爾一直在與客戶持續溝通,針對每個客戶的反饋做一些針對性的解決方案,以更好地提供服務來滿足客戶的需求。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

在第五代至強的助力下,火山引擎第三代彈性計算實例算力全新升級,整機算力、內存帶寬都進一步優化,在AI、視頻處理、Java應用、HPC應用等主流應用上性能最高提升43%。李越淵透露道,在最新實例上,火山引擎計劃推出多種基于英特爾硬件原生加速的能力,將給其內外部客戶的各項業務帶來顯著的性能提升。

京東云研發并上線了基于第五代英特爾至強可擴展處理器的新一代金融云服務器,同時通過散熱和供電等技術創新實現了整體性能提升,例如在大語言模型Llama 2 13B的推理性能測試中比上一代整體提升了51%。

百度采用4臺基于第五代英特爾至強可擴展處理器的服務器,通100G的高速網絡實現多機分布式推理來運行Llama 2 70B大模型,相比單臺服務器實現2.85倍加速比,將時延降低至87ms。

陳葆立說,英特爾一直致力于生態系統建設,有著龐大的國內合作伙伴體系,為用戶提供廣泛且經過驗證的解決方案。目前英特爾已與許多國內合作伙伴一起完成了基于第五代英特爾至強可擴展處理器的驗證,從國產操作系統的支持到超融合一體機、一些代表性的AI應用場景均已在第五代至強上做解決方案并實現了顯著的性能提升。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

陳葆立判斷,未來應用爆發時,在云邊端的推理業務量均會增長。王偉亦給出類似的預測,短期來看,模型發展還未收斂,對算力的需求量是巨大的,需要基于異構計算的算力來做好訓練,其中對GPU算力需求更高一些;但如果只有訓練,沒看到更好的推理應用,產業是不健康的,長遠來看,未來更多AI應用場景會傾向于推理,對算力的需求會逐漸降下來。

在王偉看來,需要高算力來做AI推理的場景不太有利于AI在應用端快速發展,所以阿里云會更多關注如何通過降低算力的訴求,來更好孵化大模型在推理側應用,希望使用不同的處理器架構來做推理,以滿足更多應用場景的需求。

李越淵亦談道,做AI推理需要講究性價比,對于一些場景來說,基于一個合理的參數量去喂很精準的數據、對模型調優,也許是可行之路。

三、云上數據安全是重中之重

李越淵說,安全是云廠商非常關注的芯片能力,模型是每個公司最重要的資產之一,很天然的,客戶會關注自身的數據安全、模型安全。他看到英特爾在這上面做了很多努力和嘗試,包括TDX能更加透明、低門檻的讓客戶實現端到端安全,火山引擎的AI客戶對這些非常關注。

英特爾可信域拓展(英特爾TDX)提供虛擬機(VM)層面的隔離和保密性,能增強隱私性和對數據的管理。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

在基于英特爾TDX的機密虛擬機中,客戶機操作系統和虛擬機應用被隔離開來,不會被云端主機、虛擬機管理程序和平臺的其他虛擬機訪問。

今年年初發布的第四代英特爾至強已集成英特爾TDX,且特定CSP已經能夠應用該功能,隨著新一代至強的推出,所有OEM和CSP解決方案提供商均可啟用該功能。

據王偉分享,阿里云一向非常重視客戶在云上的數據安全,集合英特爾TDX技術的阿里云g8i機密計算實例可以保障用戶在整個AI推理過程中模型和數據全流程的數據安全。

生成式AI需要怎樣的數據中心CPU?阿里云火山引擎解讀云端芯片需求

面向金融服務,平安科技同樣采用英特爾TDX技術來為大模型和用戶數據提供更強保護,使其聯邦大模型能夠平滑地部署在第五代至強上,訓練與推理過程都在加密的虛擬機內存中執行,且節點之間的通信也能通過加密及身份認證確保安全,由此構建一個可信的數據空間,實現數據共享,并全方位保護數據安全與數據隱私。

結語:2024年,生成式AI應用創新與落地的關鍵一年

英特爾在發布數據中心CPU上的節奏似乎越來越密集:今年1月和12月,英特爾分別推出第四代和第五代至強可擴展處理器。具備多達288個核心的能效核(E-core)處理器Sierra Forest將于明年上半年推出,性能核(P-core)處理器Granite Rapids也將緊隨其后發布。這正為市場帶來更加多元化的選擇。

應對AI計算需求的爆發,陳葆立認為,早期做溝通、早期做修正、以客戶為優先擁抱市場,是英特爾多年以來的優勢,再加上英特爾如期推進先進制程與先進封裝的演進,英特爾對自身的產品競爭力很有信心。他相信接下來一定更多新的生成式AI應用出現,英特爾會做好本業,繼續推進在算力、網絡、內存、安全等方面的關注。

英特爾正與合作伙伴和廣泛的生態系統攜手合作,不斷解鎖AI帶來的新增長機遇。陳葆立說:“英特爾始終致力于通過全面的產品組合、優化的軟件、多樣化工具和廣泛的生態,使更多客戶能夠為云計算、網絡、邊緣和大規模訪問業務設計、交付和部署創新的解決方案。”

據他透露,英特爾將在2024年發力與開發者的互動,在數據中心端,做生態做得最成熟的只有英特爾,英特爾希望通過一個成熟的開發者社區合作方式,能夠讓更多人參與AI開發。