芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西8月29日報道,國際頂級芯片會議Hot Chips大會本周落幕。作為芯片及系統設計領域的風向標,今年Hot Chips繼續放送了豐盛的技術干貨,重頭戲包括數據中心機架、AI核心編程、CPU、安全、GPU、網絡、光學、熱管理、存內計算、AI超算與AI推理等。

大會首日的重點議題有CPU、安全、圖形、網絡。

英特爾、IBM、日本CPU公司PEZY Computing、晶心科技子公司Condor Computing展示了前沿CPU設計。微軟著重介紹了優化數據中心安全的硬件方案。

AMD和英偉達毫無疑問擔當圖形相關分享的主咖,比較驚喜的是Meta分享了其Orion智能眼鏡的芯片設計。英特爾、AMD、英偉達、博通四家芯片巨頭還分享了最新的網絡芯片或架構。

第二天的重點議題有光學、散熱、機器學習,都與AI計算密切相關。Marvell、d-Matrix、華為、英偉達、AMD、谷歌都分享了最新的AI計算產品或技術進展。

本文按照AI計算、網絡、光學、CPU、GPU、安全、散熱的順序,總結本屆Hot Chips干貨,以供參考。

注:文章篇幅較長,可直接跳至感興趣部分閱讀。

一、AI計算:加速AI推理,支持FP4精度,瞄準超節點

AI計算的技術重點已經非常清晰了:突破存儲瓶頸,提高數據傳輸速率,支持FP8、FP4等低精度數據格式,實現能將上百萬個芯片互連的高速網絡,以及源源不斷的軟件優化。

這些優化的目標不僅是提升整體性能,還越來越重視高能效,也就是盡可能節省電力和成本。

1、Marvell:存儲是唯一重要的東西

Marvell重點分享了優化內存的三項創新:定制SRAM、定制HBM、CXL控制器。這些技術協同,層層改進內存帶寬和延遲。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

SRAM通常集成在AI加速器(XPU)中,速度最快,離XPU最近;HBM在XPU封裝中,提供GB級存儲空間;CXL在相鄰電路板上,離XPU最遠,但能提供TB級存儲空間。

(1)定制SRAM

Marvell展示了業界首款2nm定制SRAM的設計。這款產品可提高6Gb高速內存,能夠節省面積,并實現了一些關鍵特性來優化Vmin,實現低Vmin和高整體良率。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在相同工藝尺寸下,其定制高密度SRAM的帶寬密度是標準SRAM的17倍,所需面積減少50%,待機功耗減少66%

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

怎么做到的?主要有三種方法:運行速度更快,SRAM單元做得更寬,增加更多端口。即便用大型1Mbit SRAM陣列,Marvell也能實現高帶寬密度。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

(2)定制HBM

Marvell與SK海力士、三星、美光三大HBM供應商合作開發定制HBM解決方案。其定制HBM通過優化HBM基片及其接口來提高性能。

HBM接口占用了大量的片上空間,會蠶食計算空間。減少I/O接口面積則能騰出芯片邊緣支持高速信號傳輸騰出更多接口空間,從而提高帶寬。

Marvell采用標準DRAM芯片,并為其搭配的加速器優化了定制基片,搭配速率達30Tbps/mm的Marvell下一代D2D IP。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

優化的HBM接口可緩解物理和散熱限制,大幅減少功耗,節省出來的空間可用于計算及新增功能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

(3)DDR

應對更大的內存帶寬與容量挑戰,Marvell打造了Structera CXL產品線。

對此Marvell打造了高容量內存擴展設備。使用內存擴展設備可以不用通過CPU和PCIe交換機,從而實現更低的內存延遲、更高帶寬。

其Structera A CXL近內存加速器集成了16個Arm Neoverse v2 CPU核心、4通道DDR5、200GB/s的內存帶寬和4TB的內存容量,內存不到100W,可以分擔AI推理等帶寬密集型任務。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

比如64核高端x86 CPU,添加1顆Structera A CXL芯片可以增加25%的核心數、50%的內存帶寬,并增加4TB內存容量,但功耗只增加100W,每GB/s的傳輸功耗反而下降。

2、d-Matrix:加速AI推理的存內計算

AI芯片公司d-Matrix同樣關注內存優化問題。

如今AI推理模型以更小參數規模實現了超過大語言模型的表現,而更多的token生成數飽受內存限制。實時語音、AI agents都需要非常低的延遲。

d-Matrix通過緊密集成內存和計算功能并重新設計內存來突破內存瓶頸。

其AI推理芯片Corsair采用一種數字存內計算架構,利用自定義矩陣乘法電路和塊浮點數據格式,實現低延遲批量推理,能效為38TOPS/W,FP8/FP4精度下算力達2400-9600TOPS。用Corsair運行Llama3-70B模型,單token生成時間僅2ms。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

每張Corsair PCIe卡包括2個封裝,每個封裝有4個chiplet,采用臺積電6nm工藝,總共提供2GB SRAM,帶寬高達150TB/s(遠高于傳統HBM),峰值功耗為600W,800MHz時功耗為275W,1.2GHz時功耗為550W。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

PCIe卡頂部有橋接連接器,支持多卡互連。Chiplet邊緣是LPDDR和D2D連接,以及16條PCIe通道。兩張卡可以通過DMX Bridge連成16個Chiplet,具有All-to-All連接功能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

標準服務器可安裝8卡,并支持多臺服務器通過PCIe或以太網橫向擴展。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

這一架構在每個Chiplet上實現了高內存和高計算密度。每個Chiplet由4個Quad組成,每個Quad包含4個Slice、1個RISC-V控制核心和1個調度引擎。每個Slice包含DIMC核心、SIMD核心和1個數據重塑引擎。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Corsair內部的矩陣乘法器可使用INT8執行64×64矩陣乘法,或使用INT4執行64×128矩陣乘法。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Corsair支持帶縮放因子的塊浮點格式,即一個塊(Block)內所有數據使用相同的縮放因子(即指數)進行運算,既能高效利用整數運算,又能實現浮點高動態范圍。也就是微縮放(MX)浮點數據格式,現已是一種OCP標準。

該芯片支持MXINT16、MXINT8和MXINT4精度,還支持稀疏化、動態量化、內聯解壓縮等功能,可實現5倍的權重壓縮。

8個DIMC矩陣單元可以連接在一起。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

內存系統有全局內存、存儲權重的Stash,每個chiplet有2個LPDDR接口。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

為了實現16個chiplet的All-to-All連接,d-Matrix將D2D延遲降至115ns。即便通過PCIe交換機,其仍然可以將延遲控制在650ns。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

因此d-Matrix可實現跨機架多服務器擴展。d-Matrix還提供了相應的Aviator軟件,來使其AI芯片易于使用。

為了進一步突破內存瓶頸,d-Matrix將先進的3D堆疊數字存內計算3DIMC集成到下一代架構Raptor中,通過垂直堆疊內存并與計算芯片緊密集成,使AI工作負載的內存帶寬和容量提升幾個數量級。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

其目標是,相比現有HBM4,Raptor在運行AI推理工作負載時,實現10倍內存帶寬和10倍能效提升。

他們已經構建了一個原型3D DRAM測試平臺,采用36μm D2D堆疊,頂部die是基于臺積電N5工藝的邏輯芯片,底部die是3D DRAM,將熱密度保持在0.3W/mm2以下,以防止DRAM溫度過高。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

3、華為:面向大型AI超級節點的UB-Mesh網絡

華為的演講以線上形式進行,重點展示了其統一總線網狀網絡UB-Mesh技術。

超節點正在成為十億瓦級AI數據中心的標準。超節點將大量設備緊密連接,形成一個單一的大型計算系統,將芯片數量擴展至100萬,帶寬增至10Tbps,模式由異步DMA變成同步加載/存儲,需要能夠連接CPU+GPU+內存池+ SSD+網卡+交換機等各類設備。

通過轉向統一協議,然后對網絡拓撲和硬件冗余進行多項改進,UB-Mesh技術將能夠構建和部署可靠的數據中心級超節點。

華為倡導通過統一總線來實現更低延遲。任何端口連接和轉發到任何類型的設備,而無需協議轉換開銷。該技術還能實現更高帶寬,仍可通過以太網運行。

當前挑戰在于如何將本地總線擴展至數據中心網絡規模,從而在超節點的所有芯片之間提供穩定可靠的低延遲連接,具備應對整個節點故障的彈性,同時又不至于在網絡設備上花費超過加速器芯片本身的成本。

如何在不產生100倍的成本的情況下實現100倍的節點帶寬?

華為認為,這需要一種新的混合物理拓撲結構,為此正在研究三種技術:

  • CLOS=多功能+可靠,適用于低帶寬的頂級網絡(1M)
  • nD mesh =高本地帶寬+減少的遠程帶寬,適用于機架(~64)大Pod (128~8192)
  • nD sparse mesh=低成本+高帶寬(16~128),適合更小的本地部署

其關鍵觀察是,大語言模型訓練具有兩兩分層流量模式。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

UB-Mesh拓撲以多維度實現,每個維度都有從任意節點到任意節點的全連接,然后高維度連接低維度。這些都需要平衡成本。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

隨著網絡規模的擴大,傳統網絡的成本會呈超線性增長。而UB-Mesh的成本呈亞線性增長,僅在計算節點數量大幅增加時才會適度增加。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是一個64節點系統采用CLOS + 2D-Mesh設置的例子。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

如何使光纖鏈路足夠可靠以滿足超節點的需求呢?

這需要提升光纖鏈路本身的彈性。首先,支持在同一模塊上對其他光纖鏈路進行鏈路級重試,以確保不會再次回到相同的問題路徑。針對最嚴重故障的第二種方案是將MAC以交叉方式連接到多個光學模塊,這樣如果另一個模塊發生故障,仍然可以使用好的光學模塊。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

華為的目標是將多業務吞吐量(MBTF)提升100倍。實現方法之一是提供熱備機架,以便在節點發生故障時接管。故障機架修復后,會作為新的熱備機架返回節點。如果機架帶有額外的芯片,那么它本身就具有一定的彈性,可以作為弱熱備機架返回。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

更多詳情參見:arxiv.org/abs/2503.20377

4、英偉達:把AI超算搬到桌面

英偉達詳細介紹了其小型AI超算GB10 SoC。該芯片為英偉達DGX Spark小型工作站提供動力。

GB10集成了英偉達Blackwell GPU和由聯發科打造的20核Arm CPU,采用臺積電3nm工藝、2.5D先進封裝。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

它繼承了Blackwell架構的所有主要功能,并提供128GB低功耗LPDDR5x高帶寬統一內存,FP32精度下AI性能可達31TFLOPS,FP4精度下性能高達1000TFLOPS,額定TDP為140W。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

內存子系統也是由聯發科提供的。聯發科實現了NVIDIA IP的部分功能,包括顯示控制器和C2C鏈接。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

GB10芯片里有一個相對較大的24MB L2緩存,實現了CPU/GPU一致性,可降低性能開銷并簡化開發。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

搭載GB10的DGX Spark工作站提供高達4TB的SSD,單臺能跑具有2000億個參數的AI大模型和具有700億個參數的微調模型。通過ConnectX-7 NIC還能將兩個DGX Spark連在一起,以支持更大的模型。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

5、AMD:專為生成式AI設計的GPU

AMD介紹了全新MI350系列AI芯片及其采用的CDNA 4架構。同樣,MI350系列不僅支持FP8,還行業標準的MXFP6和MXFP4數據格式。

該芯片使用3D芯片堆疊技術,在兩個6nm I/O基片上堆疊8個3nm XCD芯片,總共內置1850億顆晶體管。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

MI350系列支持標準OAM封裝。MI350X用于風冷系統,MI355X用于液冷系統,液冷系統總板功耗為1400W。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

風冷和液冷的內存容量和帶寬相同,液冷的計算性能相對更高。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

相比上一代,MI350系列的2個I/O die提供更寬、更低時鐘頻率的D2D連接,以實現更高能效。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

MI350系列提供的HBM帶寬比上一代多2TB/s,內存容量也更大,可減少所需的GPU數量。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

從緩存和內存層次來看,LDS相比MI300翻倍。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

XCD峰值引擎時鐘頻率為2.4GHz,擁有一致的4MB L2緩存。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

CDNA 4架構使多種數據類型的吞吐量幾乎翻倍,并引入了對MXFP6和MXFP4數據格式的硬件支持。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AMD預計其AI和高性能計算性能是競爭加速器的2倍以上。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是MI350系列的SoC架構框圖。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

MI350系列可配置為單個或兩個NUMA域。除了內存分區選項外,XCD 還可以拆分為多個計算分區。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

多插槽系統支持在單基板上部署多達8張GPU。PCIe Gen5用于連接主機CPU和網卡,AMD Infinity Fabric用于GPU之間的All-to-All直連。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AMD提供了一個參考機架解決方案,其中GPU、CPU、橫向擴展NIC均來自AMD。對于超大規模計算平臺,每個液冷機架最多可配置96或128張MI350系列GPU,每個風冷機架最多可配置64張GPU。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

使用AMD GPU當然還要搭配AMD的ROCm 7軟件。根據AMD披露的數據,用MI355X跑DeepSeek R1模型,推理速度達到上一代MI300X的3倍,FP4精度下性能超過英偉達B200,預訓練Llama 3 70B模型的性能也達到上一代的兩三倍。

將于明年發布的MI400系列,將用上搭載432GB HBM4,性能提升幅度更猛。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

6、谷歌:專為大規模推理設計的TPU

谷歌在Hot Chips 2025大會壓軸登場,分享代號為Ironwood的新一代TPU。

這是首款專為大規模AI推理設計的谷歌TPU,其突破性創新包括:

  • 單SuperPod節點最多可容納9216顆芯片,使用OCS(光電路交換機)共享內存
  • 可直接尋址的共享HBM內存容量為1.77PB
  • FP8精度下,單SuperPod性能可擴展至42.5EFLOPS
  • 強調RAS(可靠性、可用性、可服務性)
  • 每瓦性能是上一代谷歌TPU Trillium的2倍
  • 第三代液冷基礎設施
  • 用于嵌入和集體卸載的第四代SparseCore
  • 超大規模部署正在進行中

Ironwood是谷歌首款雙計算die TPU,采用了8層HBM3e內存,提供192GB容量和7.3TB/s帶寬,并集成了更多可靠性和安全性功能,支持機密計算。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AI被用于設計ALU電路和優化布局。谷歌與AlphaChip團隊合作完成了這項工作。

互連硬件也很重要,支持單SuperPod最多擴展至9216個芯片,同時可橫向擴展到數十個SuperPod。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

每個Ironwood Tray包含4個TPU,采用液冷設計。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

16個TPU托盤裝入一個機架,每機架64個TPU。該機架與另外16個CPU主機機架連接。機架內所有互連均采用銅纜,OCS提供與其他機架的連接。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

將Ironwood與使用OCS的TPUv4進行比較:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Ironwood將一個Pod內的芯片數量增加了1倍。OCS支持將Pod配置成不同大小的矩形棱柱體,可以丟棄失效節點,通過從檢查點恢復,重新配置切片以使用其他機架。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

9216比4096的2倍更大,以便出于RAS原因擁有額外的機架。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

谷歌創下了共享內存多處理器的新紀錄——1.77PB HBM,實現了低開銷的高帶寬數據共享,能有效支持巨大的模型,并將FP8精度下的AI性能大幅提升,每瓦性能提高至TPUv4的近6倍、上一代Trillium的2倍。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Ironwood還搭配谷歌第三代液冷系統,采用多重循環,確保進入冷卻板的水非常干凈,至少不會堵塞冷卻板。

該芯片采用第四代SparseCore。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

谷歌也關注電力穩定性,通過軟硬件功能來平滑電力消耗波動。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

二、網絡:降低延遲,讓大規模傳輸既快又可靠

面向網絡基礎設施,英特爾著重介紹了可幫CPU和計算芯片減負的IPU芯片,AMD和英偉達均講解了新一代網卡,博通側重分享了其Tomahawk Ultra網絡芯片。

AMD和博通的高速網卡峰值速率都是400Gb/s,英偉達的網卡則能最高實現800Gb/s。

1、英特爾:用IPU卸載并加速網絡傳輸

英特爾IPU E2200 400G采用臺積電N5工藝,目標是卸載并加速通過網絡傳輸的常見基礎設施工作負載,提供低延遲和大規模可靠的傳輸。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

其網絡子系統包括PCIe Gen5 x32域、400G以太網MAC、Arm Neoverse N2核心計算單元等組成部分,并提供使用不同加速器和IP塊的自定義可編程卸載選項,以及P4可編程數據包處理、高性能內聯加密等功能。

這款產品支持多主機、無頭和融合模式,在融合模式下可混合運行。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面列出了一些細節:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

英特爾IPU在數據中心中已有許多用例。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

2、AMD:業界首款超以太網聯盟就緒的AI網卡

AMD分享了Pensando Pollara 400 AI NIC的內部構造。AMD沒有PCIe交換機,用P4來實現可編程性,解決AI網絡挑戰。

AI橫向擴展網絡存在許多挑戰,包括ECMP負載平衡鏈路利用率低、網絡和節點擁塞、網絡丟包等。超以太網聯盟(UEC)正在利用以太網應對這些挑戰。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Pensando Pollara 400 AI NIC是業界第一個超以太網聯盟就緒AI網卡,性能提升多達1.25倍。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

P4架構旨在構建可編程數據包流程。前文的英特爾IPU產品線也提供了這一功能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是P4流程的一些具體組件:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

虛擬地址到物理地址的轉換等方面都有所增強。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

原子內存操作與SRAM相鄰實現。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

還增強了管線緩存一致性

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AMD RCCL搭配Pollara 400 NIC,可將性能提升40%。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

3、英偉達:800Gb/s超級網卡

英偉達ConnectX-8 SuperNIC是一款PCIe Gen6網卡,旨在通過以太網實現快速的AI網絡連接,速率可達800Gb/s,有48個PCIe Gen6通道。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AI訓練和推理具有不同的特點,因此對網絡的需求也不同。英偉達ConnectX-8 SuperNIC既支持Spectrum-X以太網,又支持 Quantum-X Infiniband。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

隨著數據中心成為計算單元,需要將GPU連接到集群的其余部分。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

GB300 NVL72是PCIe Gen6 SuperNIC的首個部署。由于英偉達Grace超級芯片以PCIe Gen5速度運行,因此會有一個Gen5 x16鏈路連接到Grace CPU,然后有一個Gen6 x16鏈路連接到B300 GPU,還有另一個Gen5 x4鏈路連接到SSD。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

英偉達MGX PCIe交換機板卡也使用了該網卡。這樣一來,英偉達不僅能在PCIe平臺上支持博通交換機芯片,還能為未來的B300 PCIe GPU提供PCIe Gen6到NIC的連接。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

RDMA網絡能夠助力擴展到大型集群。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

以下是PSA數據包處理器的概覽。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

這是數據路徑加速器(DPA),一個RISC-V事件處理器。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

該網卡還有Spectrum-X以太網擁塞控制和路由,能與DPA配合使用。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Spectrum-X以太網的訓練時間步長、尾部延遲表現如下:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

4、博通:Tomahawk Ultra網絡芯片

博通分享了高性能計算和AI擴展的各種需求。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

以太網通常被認為不適合這些工作負載。博通希望通過推出Tomahawk Ultra網絡芯片來改變這種現狀。這是一款全新的51.2T交換機芯片,擁有64B容量,每秒可處理約77B個數據包。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

博通的交換機陣容如下,其中Tomahawk 6是大型102.4Tbps吞吐量專用芯片。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Tomahawk Ultra的packet轉發管線如下:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

以下是主要特點:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在交換機的較低級別上有一個鏈路層重傳(Link Layer Retry)功能,它是以太網FEC的補充,可提高突發錯誤或次優鏈路的鏈路健壯性,減少對高延遲的端到端重傳的需求。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

還有基于信用的流量控制(CBFC)功能來保證緩沖區的安全。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AI Fabric Header(AFH)覆蓋在以太網MAC header,結合了一組最小的有用字段,保留了完整的以太網MAC兼容性。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

其網絡計算支持集體操作。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

拓撲感知自適應路由對于保持網絡運行非常重要。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

擁塞控制可確保某些鏈路不會過載。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Tomahawk Ultra所有接口限速為的64B,延遲不到250ns。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

三、光I/O:部分替代電,增速降功耗

將光I/O應用于互連,相比電I/O可以實現更快的傳輸速率和更低的功耗,理論上不難理解,難在如何實現。

1、Celestial AI:具有獨立光I/O的SoC

Celestial AI展示了光結構模組Beach Front。該技術能夠利用光連接下一代GPU和加速器,取代當前使用的電連接。

其想法不是傳統的共封裝光學器件,而是將其引入具有正確封裝和散熱的大型GPU。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

它參與了臺積電5/4nm早期創新客戶計劃,已完成四次流片。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

目前其重點關注的是下方帶有中介層的HBM。Celestial AI PFLink擁有一個包含無源和有源元件的硅光子層。Celestial將SerDes與通道匹配,從而實現超高能效。它還在構建光MAC(OMAC),以實現RAS功能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Celestial AI使用了一種差異化的調制技術。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

電fabric與光fabric的擴展定律不同。隨著多芯片封裝尺寸增大,光fabric的帶寬可持續增長。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

光fabric可能會影響緩存在芯片中的構建和使用方式。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

使用Celestial AI的方法,光I/O可以用在ASIC中心,芯片的其余部分可以用電I/O。

CoWoS-L芯片組包含OIMB(光學多芯片互連橋)。保證光學接口的安全是一項挑戰,Celestial AI稱擁有解決封裝問題的技術。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在光Fabric模組中,它被用于帶有附加內存的16端口交換機中。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面列出了一些關于模塊和設備的信息:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

2、Ayar Labs:用光I/O芯片助力橫向擴展

大規模AI系統面臨如何將數百萬個芯片連成一個大型集群的互連問題。

機架范圍大約3米,多機架范圍大約15米,集群級范圍大約100米。一大挑戰是每機架功率密度,如果使用電I/O,每機架功耗會暴漲。

Ayar Labs的光I/O芯片可幫助使用光學技術實現橫向擴展。它擁有一款UCIe光I/O重定時器,可與AI計算硬件共封裝。其基本思路是制作一個UCIe Chiplet,使其能輕松將光I/O集成到封裝中。該Chiplet的速率達到8Tbps ,因此還能提供大量的封裝外帶寬。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是UCle 8 Tbps TeraPHY光學I/O芯片的一些關鍵創新:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

UCIe是一種基于標準的方式,企業可以根據通用規范構建軟件包,以便于集成。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

有了UCIe接收器,數據會被重定時,然后進入光端。這有助于解耦光信號和電信號傳輸的挑戰。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

這是光I/O端口架構:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

面向HVM的TeraPHY芯片開發日趨成熟。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

該公司還正在測試長期鏈路穩定性。熱循環很重要,因為芯片加熱和冷卻會導致材料膨脹和收縮,會改變光在通道中的傳播方式。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

長期鏈路穩定性測試如下:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Ayar Labs展示了一個共封裝的500W設備。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

這是10小時端到端測試鏈路測試結果:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Ayar Labs稱雖然他們展示的是工程驗證測試,但他們實際已進入設計驗證測試階段,即將實現量產。

3、Lightmatter:用于AI的3D光中介層

互連進步速度遠不及計算的擴展速度。一大挑戰是芯片外圍物理區域限制了I/O的執行量。要實現超過100倍的帶寬,需要一個新的范式。

Lightmatter探討了將硅光子技術更貼近芯片的優勢。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

其3D光學超級芯片平臺Passage M1000的想法是在光中介層上封裝計算和內存芯片,用3D堆疊實現緊湊的結構。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

新設計預期速率可高達114Tbps。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Lightmatter將Passage M1000稱作是邁向擁有超過200Tbps的XPU和超過400Tbps的交換機的第一步,已做好生產準備。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

設計挑戰在于讓光學元件與電SerDes的物理尺寸相匹配。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Lightmatter使用硅微環諧振器來調節光,以實現非常緊湊的光I/O。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Lightmatter解釋了為什么微環是最好的選擇:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Lightmatter打造了光引擎Lightmatter Guide。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Passage M1000還具有一定的可重構性。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Lightmatter介紹了有16條水平總線的Tile設計以及它們如何連接到片外鏈路。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是用于電氣連接的十字形金屬縫線:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Lightmatter稱它具有光路交換功能,可實現冗余。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

中介層平臺上啟用了大量帶寬。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

4、英偉達:把多個數據中心連成十億瓦級AI工廠

英偉達Spectrum-X以太網旨在支持大型GPU集群通信。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Spectrum-X以太網與現有以太網的不同之處如下:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在Hot Chips上,英偉達介紹了一個新的網絡創新技術Spectrum-XGS以太網。這項跨區域擴展(scale-across)技術可將多個分布式數據中心組合成一個十億瓦級AI超級工廠。

這意味著不僅需要硬件,還需要距離感知算法。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

與OTS以太網相比,使用該技術可將多站點NCCL橫向擴展性能提高至1.9倍,加速了多GPU和多節點的通信性能,實現了可預測異地AI集群的性能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

這樣就可以將多個數據中心組合成一個統一的AI超級工廠運行,全面優化長距離連接性能,使AI訓練不受單個數據中心能力和資源的限制。

英偉達新一代Spectrum-X以太網光學技術是世界上首個200G/SerDes共封裝光學,無需耗費電力來連接可插拔的光學引擎,可節省大量電力。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

NVIDIA Photonics是一款1.6T硅光CPO芯片,配備新型微環調制器。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

實現此功能需要許多組件的配合。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

英偉達已在數據中心運行該芯片。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Spectrum-6 102T集成硅光交換機實現了翻倍的吞吐量、更高的可靠性以及更低的功耗。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

英偉達擁有Spectrum-X和Quantum-X交換機,并即將推出CPO網絡交換機。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

四、CPU:先進制程、Chiplet、3D堆疊成共識

CPU發展面臨摩爾定律觸頂的挑戰,隨著晶體管密度提升速度放緩,引入Chiplet、3D堆疊等先進封裝方法已是大勢所趨。

1、英特爾:采用Intel 18A的至強處理器

英特爾展示了其下一代288核至強處理器Clearwater Forest。這款處理器采用Intel 18A制程和3D封裝技術,實現3D芯片堆疊,擁有更大的緩存、更快的能效核和更大的內存帶寬。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

12個能效核CPU Chiplet采用Intel 18A工藝,3個基礎Chiplet采用Intel 3工藝。2個I/O Chiplet則沿用了Sierra Forest的工藝,采用Intel 7工藝。英特爾仍用EMIB進行芯片間互連。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

1152MB LLC意味著每個插槽有576MB的末級緩存。也就是說,每個144核Tile上只有108MB,總共只有216MB。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在前端,Clearwater Forest通過3個3-wide指令解碼器,將指令寬度提升50%。分支預測器也進一步優化,能提高整體準確性。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在后端,亂序執行引擎從能夠調度5個操作到時鐘周期提升到8個操作。執行引擎方面,執行端口數量增加到26個,整數和向量執行都翻倍。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

內存子系統中,L2未命中緩沖區的大小翻倍,使其能夠存儲128個未命中數據。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

單個Clearwater Forest模塊擁有4個核心,共享4MB統一L2緩存。L2緩存帶寬相較前代翻倍,達到400GB/s。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在雙插槽系統中,每個芯片有12個DDR5-8000內存通道,總計1300GB/秒的內存帶寬。

相比Sierra Forest,英特爾稱Clearwater機架能夠提供3.5倍的每瓦性能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

2、IBM:優化內存架構的Power11處理器

IBM的CPU研發理念是按需增加核心數,計劃在后代Power處理器設計中聚焦幾個重點:每個插槽上集成的硅片數是上一代的3倍(小chiplet有生長空間),制造良率協同效應,跨chiplet保持強帶寬的能力,OMI內存Beachfront效率(啟用高帶寬SMP/IO接口),實質性延遲減少/拓撲協同(持續穩健擴展),長期發展效率和靈活性。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Hot Chips演講的重點是新一代Power微處理器Power11。Power10將AI Infusion集成到了CPU核心中,但這還不夠。Power11采用新版三星7nm工藝,除了進行少量核心架構變更外,還專注于整個系統設計。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Power11升級了內存子系統。IBM稱其為OMI內存架構。這種分層內存架構中,一塊芯片最多可支持32個DDR5內存端口,傳輸速度最高達38.4Gbps,最終將帶來定制化的內存規格OMI D-DIMM。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

IBM對HBM并不是十分看好,因為它容量較低。IBM想要8TB DRAM和1TB/s以上的內存帶寬,OMI可以基于DDR5內存實現這個目標。這些OMI緩沖區會增加6-8ns的延遲。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Power11還將帶來對外部PCIe加速器的優化支持。IBM擁有自己的Spyre加速器。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

3、Condor Computing:高性能RISC-V CPU IP

晶心科技子公司Condor Computing展示了其首個高性能RISC-V處理器設計,據介紹這由一支僅50名工程師的團隊完成。

該公司稱,與其他有相近功耗的高性能被授權CPU相比,Cuzco的性能要出色的多。

Cuzco的優勢包括降低成本、提高能效,每cluster有8個高性能計算CPU核心,符合面向高性能RISC-V計算的最新RISC-V配置文件(RVA23規范),以實現最大的軟件兼容性,并完全支持指令集架構(ISA)定制。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

其設計與多數高性能處理器大同小異,提供一個完整的IP設計,除了CPU核心,還有緩存和一致性管理功能,可接入內存和I/O總線。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

它采用一種基于時間的微架構,使用硬件編譯來進行指令排序,試圖通過設計一種需要更少晶體管、從而更節能的方法來改進亂序執行。

Condor將這一微架構稱作“第一個CPU設計與硬件編譯的最佳指令排序”,包括寄存器計分板、時間資源矩陣(TRM),以及發布指令、精確預測未來的執行時間。與典型的O-O-O機器中核相比,其目標是減少門數和功率。

為什么采用基于時間的微架構?Condor解釋說,這種設計的好處在于,調度的確定性降低了寬機器的邏輯復雜性,消除復雜的運行時每周期調度減少動態功率。Cuzco性能模型和設計為這種微架構方法提供了一個方向。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Cuzco采用基于slice的CPU設計,總共最多8個核心,具有私有的L2和共享的L3。每個slice實現一個完全兼容的RISC-V CPU,向機器添加一組對稱的資源。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Cuzco的設計在SPECint2006中每時鐘的性能,幾乎是晶心科技當前AX65核心的兩倍。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Condor相信他們的硬件調度系統能夠以比傳統O-O-O調度更低的功耗和復雜度實現更佳的效果,從而提供更高性能。

4、PEZY Computing:第四代MIMD多核處理器

日本CPU公司PEZY Computing專門從事多指令多數據(MIMD)CPU設計。該公司認為對于具有高度獨立線程的應用程序,MIMD更有效。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

第五代PEZY-SC的設計工作已啟動,將采用3nm或更小工藝,預計在2027年發布。

PEZY Computing還在開發一種新的硬件描述語言Veryl,作為一個開源軟件,可替代SystemVerilog。PEZY-SC5的核心組件正在用Veryl進行開發。

回到這次分享的重點——PEZY-SC4s。該芯片采用臺積電5nm FinFET工藝,尺寸為18.4mm x 30.2mm(約556mm2),有48億顆晶體管,SRAM容量為1.6 Gbits。內部總線中,讀帶寬為12TB/s,寫帶寬為6TB/s。

其主要計算資源包括2048個PE(16384個線程)以及PE和緩存的分層結構。外部內存是HBM3,有4個設備,帶寬為3.2TB/s,容量為96GB。外部接口是PCIe Gen5,有16個lane,帶寬為64GB/s。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

其MIMD架構包括:

(1)使用許多線程的處理器元素(PE):細粒度多線程、粗粒度多線程。

(2)為多個線程提供數據:本地內存存儲、用分層緩存放大帶寬。

(3)線程同步:顯式線程和緩存同步、芯片級數據操作。

系統開發方面,具有主機CPU和PEZY-SC4s的節點,包括1張AMD EPYC 9555P、4張PEZY-SC4s和NDR InfiniBand。

規劃的系統配置有90個節點,總共737,280個PE,雙精度下峰值算力為8.6PFLOPS。

PEZY還對其設計進行了仿真,以了解其功耗和性能表現。與上一代相比,預計PEZY-SC4s在執行DGEMM工作負載時,功率效率將提高至2倍以上。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

在性能模擬中,基因組序列比對算法Smith-Waterman的性能達到359GCUPS,是PEZY-SC3性能的3.86倍。?

五、圖形:用AI提升GPU渲染效率,拆解AI眼鏡專用芯片

GPU兩大巨頭這次沒講新東西,而是把之前分享過旗艦圖形產品進行了更系統的架構細節分享,尤其強調對光線追蹤、AI性能及神經渲染的優化。

1、AMD:優化光追與AI算力

AMD RDNA 4專為下一代游戲和創作而打造,提供了升級的AI計算能力和創新的光線追蹤功能,可支持嚴苛的游戲應用、先進的視頻編碼和流媒體能力的生產力和媒體創作。

其SoC架構設計靈活、高度可擴展,可根據市場需求決定配置,打造多種產品SKU。

RDNA 4架構針對高端游戲工作負載進行了大量優化,包括柵格化和計算效率、光線追蹤性能、AI性能、多媒體性能等,提高了各類工作負載的帶寬效率。

單個GPU由多個著色器引擎組成,L2緩存變大。AMD在Navi 48 GPU中配備了兩個改進的媒體和顯示引擎。多媒體模塊進行了一些重要的編碼器更新,降低了整體延遲。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

計算引擎中,標量單元增加了浮點支持。光線追蹤方面,RDNA 4的光線求交性能翻倍,還新增了一個專用的硬件實例轉換器,將該任務從著色器程序中轉移出來。BVH結構從4列加寬至8列。節點壓縮也減少了BVH的尺寸。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

光線追蹤硬件的一項新特性是定向邊界框,能夠更精確地表示物體形狀,提高光線相交測試效率。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

亂序內存訪問也是光線追蹤的主要性能組成部分,某些請求可優先,無需等待其他延遲的工作。

RDNA 4還通過動態寄存器分配對著色器引擎進行了一些更新,從而增加傳播波數。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

針對ML/AI工作負載,RDNA 4增加了FP8及稀疏化功能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

AI利用神經輻射緩存以及神經超采樣和去噪技術來填補因使用過少光線而造成的空白。

在SoC架構中,AMD展示了數據在著色器引擎、各種緩存和內存控制器之間的流動方式。Infinity Fabric的帶寬高達1KB/時鐘頻率。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

RDNA 4結構是模塊化的。AMD設計的Navi 48可將其切成兩半,制造出更小的GPU,減少了開發GPU變體所需的工作量。這也是RAS功能發揮作用以提高可靠性之處。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

RDNA 4有新的內存壓縮/解壓縮功能。這些功能對軟件完全透明,全部由硬件處理。AMD已將某些柵格工作負載的性能提高約15%,將一些工作負載的fabric帶寬占用率降低約25%,并且不需要軟件識別壓縮算法。

2、英偉達:將傳統圖形與AI融合

英偉達重點介紹了Blackwell架構給神經渲染領域帶來的好處,稱RTX Blackwell為神經渲染的新時代奠定了基礎。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

基于Blackwell,英偉達正大力押注FP4計算,以最大限度地提升AI性能。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

神經渲染將傳統圖形與AI融合,利用AI來生成幀,不僅提供更好的視覺保真度和沉浸式世界,而且還有助于幫筆記本電腦省電和在游戲中使用AI agents。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

英偉達大量使用著色器執行重排序技術,以保持SM的滿載。Blackwell增加了GDDR7支持,顯著提升了總內存帶寬。與PAM4(GDDR6X)相比,PAM3提供的每時鐘位數較少,但更高的信噪比(SNR)允許更高的時鐘速度,足以彌補差異,還支持更低的電壓。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

英偉達希望縮短首token執行時間,尤其是在運行混合圖形/機器學習工作負載時。這為機器學習模型/AI agents更適用于交互式游戲奠定了基礎。

Blackwell除了優化AI算力外,還配備了一整套AI管理處理器,以協調圖形和機器學習的交錯工作,確保數據傳輸和SM高效運行。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

幀生成可將GPU功耗減半。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Blackwell圖形GPU還支持通用MIG(多實例GPU)。與timeslicing相比,英偉達發現4個MIG可將性能提升60%。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

單個1080p客戶端工作負載過小,無法完全滿足RTX Pro 6000的計算需求,將其拆分為多個較小的vGPU后,則能通過并行執行多個工作負載來保持GPU的負載飽和。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

3、Meta:AI眼鏡里的專用芯片

Meta的Orion眼鏡原型將普通眼鏡的外觀與增強現實(AR)的沉浸式功能結合在一起,正在突破AI眼鏡在空間和功耗方面的極限。

Meta探討了如何使用專用芯片來加速世界鎖定渲染(WRL)。

世界鎖定渲染是指在MR/AR應用中,將虛擬物體固定在現實世界中的特定位置,使其與物理環境保持相對靜止的渲染方式。這種方式使得虛擬物體能夠與現實世界進行空間對齊,提供更加沉浸式的體驗。

世界鎖定渲染的原理如下:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是基本世界鎖定渲染算法的框架:

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

由于眼鏡的物理限制,世界鎖定渲染的功耗預算極其有限。Meta運用了多種行業前沿技術,功耗上包括先進的工藝節點(Orion構思之初是5nm)、有限的DRAM使用、Vmin Fmax、積極的電源管理與壓縮,物理尺寸上采用創意封裝和盡量減少線數,將計算任務拆分到眼鏡和外部Puck中。

世界鎖定渲染對延遲極其敏感,因此需要在眼鏡本地運行。Puck有3個主要處理芯片:顯示處理器、眼鏡處理器、計算協處理器。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

世界鎖定渲染是一種持續運行的工作負載,與傳統的突發閑置模式不同,采用分散控制,提供超低延遲和積極的電源管理、簡化的工作負載隔離和安全性、用于未來系統分區的模塊化,具備可選性和靈活性。

它不會像大多數傳統工作負載那樣出現突發情況,因此對硬件的需求也不一樣。

眼鏡處理器負責處理所有眼部、手部追蹤以及攝像頭輸入。它采用SiP封裝、5nm工藝,總共集成了24億顆晶體管。Meta還在芯片中植入了安全信任根,確保所有進出芯片的數據都經過加密。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

來自puck的圖像是HEVC編碼的,所以眼鏡處理器需要解碼它。最終,它被重新編碼為顯示處理器的專有格式。

每只眼睛各對應一個顯示處理器,運行重新投影(時間扭曲)。這里沒有外部存儲器,所有內容都存儲在片上 SRAM 中,所以SRAM容量會很大。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

計算協處理器同樣采用5nm工藝,配備LPDDR4X內存,集成了57億顆晶體管,是Orion眼鏡中性能最強、功耗和發熱量最高的處理器,包括計算機視覺處理、機器學習執行、音頻渲染、HEVC 編碼等功能,擁有相對較大的片上SRAM緩存。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

六、安全:微軟用Azure硬件安全阻止“全球第三大GDP國家”

微軟亮出了一張圖表:2024年網絡犯罪GDP高于9萬億美元,預計2025年將超過10萬億美元,排名介乎于中國與德國之間。

因此,微軟的系統是作為公司安全計劃(SFA)的一部分為安全而設計的。微軟展示的安全硬件系統架構中,每個CPU有12個DIMM插槽。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

硬件安全模組(HSM)可以是PCIe卡,也可以是服務器或機架mount解決方案。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

一種典型的HSM架構是Central HSM cluster。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

微軟正將其硬件安全從中心化模型轉變為集成到每個服務器中。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Azure Integrated HSM是微軟的安全芯片,通過采用本地ASIC,無需與中心化服務器進行TLS握手。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

以前當芯片采用集中式設計時,微軟會在集群級擴展HSM。現在,它需要將其規模調整到適合單臺服務器的規模,同時還要保持低功耗和小尺寸。

這個ASIC專用芯片包括HSM優化硬件,采用AES和PKE操作的硬件加密加速、用于控制邏輯的實時核心,還有加固的接口和安全標準,具備檢測入侵和篡改等行為的能力。

微軟也進軍機密計算領域,旨在保護正在使用的數據,尤其是在多租戶云環境中。

微軟還詳細分析了不同功能的門數。硬件密碼占了62%的面積。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

為何要將其定制ASIC開源?微軟分享了4點理由:一是開源支持更好的安全透明度;二是一致性,默認設施安全和操作安全;三是密碼學高度標準化;四是建立層層防御。

七、散熱:從優化3D結構到引入生成式AI

隨著AI芯片性能變強,傳統液冷解決方案迎來挑戰,需要更復雜、更周到的散熱設計。對此,Fabric8Labs展示了一種適應未來的數據中心散熱解決方案。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

Fabric8Labs方案本質上是一塊OLED顯示屏,用電荷而非光來以像素分辨率沉積銅。這就是電化學增材制造(ECAM),融合了高分辨率顯示技術和電鍍的可擴展性。有了它,就能制造出更復雜的結構,適應未來的AI散熱管理硬件。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

左側3D結構經過優化,中間是生成式AI驅動的設計,右側展示了一種未來的可能性,就是將銅直接沉積在硅片上,這樣冷卻效果直接作用于熱源。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

下面是一個兩相液冷浸入式蒸發板,通過增加表面積優化流體的蒸發。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

利用EDA軟件工具可能會在晶圓上生產針對Chiplet技術設計的優化冷卻結構。

未來,我們或許能看到封裝級冷板和直接硅基技術,將液冷散熱解決方案直接施加在硅片上。

今年Hot Chips最全看點,都在這了!一文看盡芯片界7大風向

參考來源:Serve The Home