智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
在今年的云計算產業盛會AWS re:Invent上,亞馬遜云科技(AWS)少見地公布了大量關于硬件基礎設施及芯片的細節信息,包括自研服務器CPU Graviton系列、自研AI芯片Trainium系列、AI超級服務器、最大AI服務器集群等。
這場開誠布公的分享,既讓我們窺得這家全球最大云計算巨頭深厚的硬件基建功底,也讓我們飽覽了從CPU研發策略、先進封裝、背面供電、AI芯片脈動陣列到芯片互連、AI網絡的各種底層技術創新。尤其是對于云計算基礎設施、數據中心芯片設計從業者而言,其中有很多值得細品的經驗和思路。
大會期間,亞馬遜云科技計算與網絡副總裁Dave Brown還與智東西等少數媒體進一步就基礎設施與芯片研發的策略和細節進行交流。他告訴智東西,Trainium3基本上所有設計都會圍繞生成式AI,AWS已披露Trainium3是其首款采用3nm工藝的芯片,算力上一代的2倍、功耗降低40%,但目前透露技術細節可能為時尚早。他還劇透說亞馬遜云科技預計明年會逐步發布更多細節。
一、CPU設計理念:不為基準測試而造芯
亞馬遜云科技的自研服務器CPU和AI芯片均已在其數據中心落地,被許多知名IT企業采用。連蘋果都是其座上賓,在構建Apple Intelligence等AI服務的背后用到了Graviton3、Inferentia2、Trainium2等亞馬遜云科技自研芯片。
據Dave Brown分享,亞馬遜云科技數據中心里用到的服務器CPU中,過去兩年有超過50%的新增CPU容量是其自研服務器CPU芯片Gravtion。全球最大購物節之一亞馬遜Prime Day有超過25萬個Graviton CPU支持操作。
在2018年,亞馬遜云科技看到Arm核心發展變快,萌生了結合這種技術曲線與亞馬遜云科技客戶需求開發一個定制通用處理器的念頭。Graviton由此誕生,其推出和落地也帶來了Arm芯片真正進入數據中心的時刻。
今天,Graviton被幾乎每個亞馬遜云科技客戶廣泛使用。90%的前1000個Amazon EC2客戶都開始使用Graviton。
Graviton4是當前最強大的亞馬遜云科技自研服務器CPU,每個核心提供30%更多的計算能力,vCPU數量和內存是上一代的3倍,尤其適用于大型數據庫、復雜分析等要求最高的企業工作負載。
Dave Brown強調說,在設計芯片時,亞馬遜云科技不是奔著贏得基準測試,而是專注于實際工作負載性能。
在他看來,業界熱衷于優化基準測試,就像是“通過100米短跑來訓練馬拉松”。實際工作負載的行為與整潔的基準測試截然不符,它們是混亂的、不可預測的,真實工作負載遇到的問題可能與微基準測試完全不同。
比如,理論上,Graviton3的性能比Graviton2提高了30%,但測試Nginx時性能提升多達60%,因為亞馬遜云科技極大減少了分支錯誤預測。Graviton4也類似,微基準測試分數比上一代提高了25%,運行真實MySQL工作負載的表現則足足提高了40%。
現代CPU就像一個復雜的匯編管道,前端獲取和解碼指令,后端執行指令。
在評估性能時,亞馬遜云科技會查看不同工作負載對CPU微架構的壓力,比如工作負載是否對前端停擺敏感,前端停擺受分支數量、分支目標或指令等因素的影響,或者后端停頓受L1、L2和L3緩存中的數據以及指令窗口大小的影響。
對于每一代的Graviton,客戶都可以簡單地切換到最新的實例類型,并立即看到更好的性能。
在安全性上,亞馬遜云科技還加密了Graviton4與Nitro之間的PCIe鏈路,做到更極致的全流程安全防護。
二、高性能芯片設計的關鍵黑科技:先進封裝與背面供電
幾年前,封裝還很簡單,基本上是一種封裝單個芯片并將其連接到主板的方法。但現在這個方案變得先進很多。你可以把先進封裝想象成用一種叫做中介層(interposer)的特殊設備把幾個芯片連接在一個封裝里。
中介層本身實際上是一個Chiplet,它作為一個微型主板,提供了連接芯片的能力,其帶寬是普通PCB主板的10倍。
Graviton3和Graviton4都采用了先進封裝技術。Graviton4有7個Chiplet,中間大芯片是計算核心,外圍更小的芯片做一些事情,比如允許芯片訪問內存和系統總線的其他部分。通過分離計算核心,亞馬遜云科技有效地將Graviton4的核心數量增加50%。
這種方法對Graviton非常有幫助,但引入AI芯片設計中會遇到一些挑戰。
2018年,看到加速器實例和深度學習趨勢后,亞馬遜云科技決定構建AI芯片。其首款自研AI芯片是2019年的Inferentia,能夠切實降低小型推理工作負載的成本,比如亞馬遜Alexa通過遷移到Inferentia節省了大量資金。
2022年,亞馬遜云科技推出了其首款自研AI訓練芯片Trainium1,并實現可將在Trainium1上運行的工作負載節省約50%。
亞馬遜云科技高級副總裁Peter DeSantis在re:Invent大會現場展示了Trainium2的封裝,里面有兩顆計算芯片并排放在中間。其計算die的晶體管數量是Trainium1計算die的2.2倍。
想在一個系統上獲得最多的計算和內存,要用先進的封裝或制造技術來制造大芯片。Trainium2上就是這樣做的。但這遇到了第一個工程極限——芯片制造有尺寸限制,在800平方毫米左右。
每個計算芯片旁邊的兩顆芯片是HBM內存堆棧,每個計算芯片Chiplet通過CoWoS-S/R封裝與兩個HBM堆棧通信。通過堆疊芯片,可將更多內存裝入相同區域,從而減少消耗、釋放的能量。
那為什么不能把封裝做得更大呢?這就是第二個限制所在。
今天的封裝實際上被限制在最大芯片尺寸的3倍左右。假如將計算芯片和HBM取出,可以看到中間層,下面有用來連接芯片和中介器的微凸點。
這是亞馬遜云科技旗下Annapurna芯片團隊制作的一張圖片。他們沿著紫色的線仔細切出了芯片的橫截面,然后用顯微鏡從側面放大圖像。左上角是計算芯片,旁邊有HBM模塊,HBM模塊層都位于一個薄的連續晶圓上。芯片和中間層頂部之間的電連接非常小,每個大約是100μm,比細鹽粒還小。
而要讓芯片保持穩定連接,就必須得限制封裝大小。
同時,Trainium2還引入了背面供電,把電源線挪到晶圓背面,以減少布線擁塞。
半導體利用微小電荷的存在或不存在來存儲和處理信息,當芯片遇到電壓下降時,它們通常得等待到供電系統調整。芯片在完成計算任務需要提供大量的能量,為了在低電壓下傳輸所有的能量,需要使用大電線,減少電路傳輸長度,從而來避免所謂的電壓下降。
三、打造最強AI硬件猛獸,背后的技術秘方
訓練更大的模型,需要構建更好的AI基礎設施、更強大的服務器集群。這要求有更好的AI芯片和AI網絡。
在re:Invent大會上,亞馬遜云科技著重公布了幾個重磅AI硬件產品。
一是亞馬遜和Anthropic正在合作構建的Project Rainier,一個擁有數十萬顆Trainium2芯片的超級服務器集群。這個集群將具備Anthropic目前用于訓練其領先的Claude模型的集群5倍的計算能力。
二是能訓練和部署世界上最大模型的Trainum2超級服務器。它連接了4個計算節點,集成了64個Trainium2芯片,將峰值算力擴展至83.2PFLOPS,稀疏算力更是高至332.8PFLOPS,將單個實例的計算、內存和網絡性能提高4倍。
三是亞馬遜云科技迄今做機器學習訓練最高能效的服務器——Trainium2服務器。一個Trainium2服務器容納有16個Trainium2芯片,可在單個計算節點提供20.8PFLOPS的計算能力。由Trainium2芯片提供支持的Amazon EC2 Trn2實例也正式可用,可提供比當前GPU驅動的實例高出30%~40%的性價比。
這些Trainium2芯片通過超快的NeuronLink互連技術連接在一起。
在芯片設計上,Dave Brown講解了CPU、GPU、NPU三類芯片微架構的不同。
CPU針對大量復雜邏輯的快速執行,每個緩存對應控制引擎和執行引擎。
GPU主要用于數據并行,控制單元較少,執行單元多。其運算過程會涉及一些數據在緩存和HBM內存之間的倒換。
為了減少無效的內存占用,亞馬遜云科技Trainium芯片采用的是脈動陣列(Systolic Arrays)架構,與谷歌TPU如出一轍,直接傳遞計算結果,能夠降低內存帶寬需求。
在生態建設上,亞馬遜云科技提供了一個其自研AI芯片的專用編譯語言新Neuron Kernel接口(NKI),用于方便開發者直接對其AI芯片進行深度調試,從而更充分地挖掘芯片性能。
單芯片的性能強,在實際落地中未必管用。要支撐起業界最大的大模型訓練和推理,必須能夠提高大量芯片互連時的系統級算力利用率。
亞馬遜云科技自研的NeuronLink芯片到芯片互連技術可將多個Trainium2服務器組合成一個邏輯服務器,帶寬為2TB/s,延遲為1μs。
與傳統高速網絡協議網絡不同的是,NeuronLink服務器可以直接訪問彼此的內存,從而創造出一臺“超級服務器”。
Peter DeSantis也花時間科普了一下為什么大模型推理越來越重要,以及它對AI基礎設施提出了怎樣的新要求。
大模型推理有兩種工作負載——預填充(prefill)和token生成。預填充是輸入編碼,其中處理提示和其他模型輸入,為token生成做準備。這個過程需要大量的計算資源來將輸入轉換成傳遞給下一個進程的數據結構。完成后,計算出的數據結構將被傳遞給第二個推理工作負載,由它生成token。
Token生成的有趣之處在于,模型按順序生成每個token,一次一個。這對AI基礎設施提出了非常不同的要求,每次生成token時,必須從內存中讀取整個模型,因此會對內存總線產生大量需求,但它只使用少量的計算,幾乎與預填充工作負載完全相反。
這些工作量差異對AI基礎設施意味著什么呢?一旦token開始生成,只需要以超過人類閱讀速度的速度生成它們。這不是很快,但當模型越來越多地用于agentic工作流,在進入工作流的下一步之前,需要生成整個響應。所以現在客戶關心的是快速預填充和快速token生成。
對真正快速推理的渴望,意味著AI推理工作負載也尋求使用最強大的AI服務器。這兩種不同工作負荷是互補的。預填充需要更多的計算,token生成需要更多的內存帶寬,所以在同一個強大的AI服務器上運行它們可以幫助實現出色的性能和效率。
這就解釋了亞馬遜云科技力推自研AI服務器及集群的核心驅動力。
四、如何構建AI網絡?10p10u架構、定制光纖電纜及插頭、混合式路由協議
云網絡需要快速擴展以適應增長,亞馬遜云科技每天向全球數據中心添加數千臺服務器。但AI的擴展速度更快。
據Peter DeSantis分享,亞馬遜云科技的云網絡在可靠性方面已經做到99.999%。AI工作負載對規模、速度、可靠性的要求更甚。如果AI網絡經歷了短暫的故障,整個集群的訓練過程可能會延遲,導致資源閑置和訓練時間延長。
如何在云網絡的創新基礎上構建一個AI網絡呢?亞馬遜云科技打造了10p10u網絡。
10p10u的物理架構與傳統CLOS網絡架構區別不大,亮點是實現了10Pbps傳輸帶寬、10μs網絡延遲,連起來后組成可用于訓練的超級集群。
下圖展示了亞馬遜云科技在不同網絡結構中安裝的鏈接數量,其中10p10u在過去12個月已安裝超過300萬條。
結構如下圖所示,采用簡化的無電纜機箱設計,左側是8張Nitro卡,右側是兩顆Trainium2加速器。
大量的光纜進入機架,要構建這樣的密集網絡結構,需要非常精確的互連交換機,并要應對復雜性大大增加的挑戰。
針對布線復雜問題,亞馬遜云科技研制了一些特殊的光纖電纜、光纖插頭,并針對超大規模集群打造了一種全新網絡路由協議。
其中一個創新是開發了一個定制的光纖電纜Fiber optical trunk cable。可以把它當成一根超級電纜,它將16根獨立的光纖電纜組合成一個堅固的連接器,能夠大大簡化組裝過程,消除連接錯誤的風險。
使用主干連接器將在AI機架上的安裝時間縮短了54%,而且做到看起來更整潔了。
還有定制光纖插頭——Firefly Optic Plug。
這個巧妙的低成本設備就像一個微型信號反射器,支持在機架到達數據中心之前進行全面測試和驗證網絡連接。這意味著服務器到達時,不會浪費任何時間調試、布線。
此外,即使是微小的灰塵顆粒,也會顯著降低完整性并造成網絡性能問題。而Firefly Optic Plug具有雙重保護密封功能,可防止灰塵顆粒進入光纖連接。
最后一個挑戰是提供更高的網絡可靠性。
亞馬遜云科技對光鏈路的可靠性做了很多優化,將失敗率降低到0.002以下。
AI網絡中最大的故障來源是光鏈路。光鏈路是微型激光模塊,在電纜上發送和接收光信號。這些失敗不可能被完全消除,因此需要考慮如何減少失敗的影響。
每個網絡交換機都需要數據來告訴它們如何路由數據包。在AI網絡中,這個地圖可能需要考慮數十萬條路徑。每次光鏈路出現故障,映射就需要更新。
如何快速而可靠地做到這一點?最簡單的方法是集中管理映射。
優化網絡聽起來很吸引人,但當網絡規模龐大時,中央控制就會成為瓶頸。檢測故障會很困難,交換機更新可能非常緩慢,而且中央控制器是單點故障。這就是為什么大型網絡通常使用BGP和OSPF等協議去中心化的原因。
然而去中心化的方案也不完美。在大型網絡中,當鏈路出現故障時,網絡交換機需要花費大量時間進行協作,并為網絡找到新的最優映射。
也就是說,在面對超大規模集群組網時,集中式和分布式的傳統路由協議都面臨挑戰。
面臨次優選擇時,則需要開辟一條新的道路。對此,亞馬遜云科技研發了一種全新的混合式網絡路由協議SIDR(Scalable Intent Driven Routing),通過將集中式和分布式控制的優勢相結合,能在很短時間內重新規劃網絡路徑,為超大規模集群提供更好的快速故障檢測、響應和恢復能力。
SIDR可以簡單理解成讓中央計劃者將網絡分解成一個結構,這個結構可以下推到網絡中的所有交換機。這樣它們看到故障時,就能做出快速、自主的決定。 結果,SIDR能在1秒內響應故障,而且在亞馬遜云科技網絡上做到比其他替代方法快10倍。其他網絡可能還在重新計算路線,10p10u網絡已經恢復工作了。
結語:云大廠自研芯片的風向標
作為在自研芯片落地上最成功的云計算大廠之一,亞馬遜云科技的芯片設計經驗、自研芯片對云業務的實際影響、迭代與創新方向一直備受關注。在接受智東西等媒體采訪期間,Dave Brown也總結了亞馬遜云科技自研芯片的一些關鍵優勢,包括成本低、規模大、落地快、穩定可靠等。
成本上,如果選用Trainium2可將成本較H100降低50%,那么這對客戶或許是很有吸引力的點。
規模上,亞馬遜云科技的規模確保其芯片能夠正常運行,會在推出Trainium前做大量測試,確保芯片一旦推出就一定會成功,不會出現硬件需要撤回的情況。
規模大還意味著更容易獲得所需的產能。Dave Brown提到亞馬遜云科技與英特爾、臺積電等企業的合作順利,認為臺積電到美國鳳凰城投資建廠是明智之選。亞馬遜云科技致力于實現供應鏈多元化,是臺積電的最大客戶之一,也一直與英特爾緊密合作,互相幫助進行設計創新,預計不會受領導層變動的影響。
落地上,亞馬遜云科技有專門團隊,負責立即能將芯片放到服務器中,中間不存在一兩個月的耽擱延誤,因此能縮短落地時間,有足夠好的芯片來支持客戶進行大語言模型的訓練。
還有完整的產品組合和可靠服務。亞馬遜云科技提供不僅僅是芯片,還包括存儲、Kubernetes服務器、API、安全、網絡等,這樣豐富的組合拳是其他供應商難以提供的。在穩定性上,亞馬遜云科技同樣具備優勢,在及時診斷和修補遇到的問題、確保服務不受影響方面已經深得云服務客戶的信任。
生成式AI浪潮推動下游市場對更高性能、高性價比、靈活可定制的AI基礎設施提出了強需求。而亞馬遜云科技在AI基礎設施底層技術與工程上的探索與創新,正為業界提供一個既能適應客戶業務需求、降低系統復雜性又能提高供應鏈話語權的出色參考范本。


































