芯東西(公眾號:aichip001)
編輯 |? GACS 2024
2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦。在大會第一天的主會場開幕式上,AMD人工智能事業部高級總監王宏強以《推進大模型從云到端部署,打造變革性未來》為題發表演講。
AMD在端到端的AI基礎設施領域打造了全面的產品線,覆蓋從數據中心服務器、AI PC到智能嵌入式和邊緣設備,并提供領先的AI開源軟件及開放的生態系統。AMD基于先進ZEN4架構設計的CPU處理器平臺、基于CDNA3架構面向AI推理&訓練的MI系列加速器,已被微軟等巨頭采用。
據AMD人工智能事業部高級總監王宏強分享,AMD還在推動數據中心高性能網絡基礎設施(UALink,Ultra Ethernet),這對AI網絡結構需要支持快速切換和極低延遲、擴展AI數據中心性能至關重要。AMD即將發布下一代高性能AI PC芯片,其基于第二代XDNA架構的Ryzen AI NPU,可提供50TOPS算力,將能效比提高至通用架構的35倍。
在AI PC對隱私、安全和數據自主性的推動下,重要的AI工作負載開始部署在PC上。作為全球領先的AI基礎設施提供商之一,AMD愿意攜手廣大客戶與開發者共建變革性未來。
目前,為了推進AI從云到端部署,AMD重點主要集中在提供豐富多樣的高性能和自適應硬件和軟件解決方案組合、建設開放式生態系統、將復雜的工作負載簡化為引人入勝的用戶體驗這三大關鍵領域。

▲AMD人工智能事業部高級總監王宏強
以下為王宏強的演講實錄:
自去年以來,人工智能(AI)領域實現了顯著的發展,尤其是在大模型和生成式AI方面。AMD在這些技術產品方面逐步推出了從硬件平臺到軟件,從端到端的解決方案。
AMD擁有非常全的產品線,從數據中心服務器,到邊緣側的Edge&Embedded,還有AI PC,都有非常全面的硬件AI平臺。
AMD公司真正做到針對不同數據中心業務需求進行優化,以滿足各種工作負載。這包括使用CPU處理器進行輕量級AI推理,或者利用MI加速器處理大規模任務,尤其是當前生成式AI大模型的推理和訓練。
同時,我們知道在數據中心,除了推理和訓練,特別是在訓練里面,我們需要有Scaling Out(橫向擴展)和Scaling Up(縱向擴展)。在同一個節點里面有多卡互聯,在不同節點之間則是需要有Scaling Out擴大整個處理的能力。
針對這方面,我們集中發展開放的高速互聯,如UALink和Ultra Ethernet,我們在計算和跨節點互聯方面都提供了重要的技術支持。AI網絡有一個很重要的需求,就是需要一個極低的延時和響應的時間,AMD找的是開放的UALink和Ultra Ethemet,更好地與業界其他客戶一起構建我們整個的計算加速平臺。
一、加速器輕松處理上萬億參數模型
AMD的EPYC系列新一代CPU擁有多達192個核心和384個線程,這是基于我們最新的ZEN5架構設計的,它相比上一代也有非常大的性能提升,不僅是從Instruction Bandwidth(指令帶寬),還有數據的Bandwidch(帶寬),比如L2到L1的,還有L1到浮點數據的帶寬都有提升2倍。
同時,我們的AVX-512技術是完整的,它在數據的buffer(緩沖區)也有帶寬,從而能夠更有效地支持AI推理服務。
自去年12月以來,我們在數據中心也推出了一系列新的MI加速器,這些產品已經被包括微軟在內的大型互聯網公司采用。
我們加速的板卡已經被服務器制造商,包括OEM(原始設備制造商)和ODM(原始設計制造商)集成到他們的服務器中。
對于用戶而言,只要購買了這些服務器,就可以獲得內置我們的CPU和MI加速器的系統,并用于執行AI推理和訓練任務。
目前,在大模型生成式AI領域,ADM也是一直在提升我們的架構。我們原來是Llama3的架構,對此我們也將繼續演進。
在存儲容量和存儲帶寬方面,我們也取得了快速的發展。預計到今年年底,大家將會看到一些相關的更新產品的發布。
我們將更有效地支持當前在大模型的推理,例如Llama和GPT等。讓所有的這些模型都能輕松地在我們的加速器上運行。更為重要的是,我們的加速器甚至能夠處理具有上萬億參數的模型。
二、GPU設計完全開源,人人都可對代碼進行修改
在GPU軟件設計上,我們有ROCm,它是一個開源的加速器軟件。我們不僅設計是開源的,而且整個架構也是模塊化的,對用戶完全開放、開源。
用戶和社區成員都可以訪問這些開源代碼,你甚至可以對代碼進行修改。我們鼓勵更多地去把AI整個社區的貢獻集成在我們整個ROCm平臺里面。
我們針對當下最熱的生成式AI也做了很多創新,比如像對RADEON這個開源推理引擎的支持。此外,我們還積極支持了像SGlang這樣的新型開源推理引擎。
SGlang和RADEON之間存在一些差異,特別是在調度上。與CUDA這個相對閉源的環境不同,我們支持不同的開源推理引擎,使用戶、社區,整個生態處在一個環境里面。
為了支持生成式AI的大模型,我們對FlashAttention-2和FlashAttention-3進行了優化,包括對FP8這些算子的支持。這些都是用在推理里面非常典型的數據類型,在訓練里面,我們也能夠支持BF16的數據類型。
除了提供算子支持,我們還支持通信,包括RCCL優化和虛擬化技術的支持等。
三、AI發展不僅在于硬件,軟件和基礎設施投入同樣重要
我們堅持在AI的軟件及基礎設施上的投入。除了加大自己內部的投入,我們還會收購一些業界比較有名的公司。
最近我們收購了SILO.ai,這是一家擁有眾多杰出AI案例的公司。
通過收購SILO.ai,我們不僅能夠進一步提供AI優化技術,還獲得了他們在AI開源領域積累的豐富專業知識。
我們也收購了ZT Systems。作為行業領先的數據中心,ZT Systems專注于AI基礎設施。
我們不僅從軟件、硬件平臺,還從整個機框、機架這一整套來提供AI加速的能力。
開源加速的發展速度在不斷加快,每天都有新的開源算子和框架被推出。
AMD本著開源開放的戰略,積極在開源社區進行部署和推廣新模型。我們借助整個生態系統的力量,迅速推動AI技術的發展,這與相對封閉的CUDA環境完全不一樣。
我們與HuggingFace的合作也是非常緊密的。HuggingFace上有70多萬個模型,每天我們都會進行一些測試,保證它的這些模型都是可以直接運行在我們加速器的平臺上,包括在數據中心里面,還有在個人筆記本Ryzen平臺上。
我們還與OpenAI Triton合作,它提供了更高層次的AI語言抽象,使我們能夠在更高層次的語言抽象上更容易地實現功能。此外,我們很早就開始支持像PyTorch這樣的推理框架。
四、XDNA2架構下的NPU,算力與存儲提升
剛剛介紹了我們在數據中心的投入,實際上我們在AI PC的投入也非常大。
我們一直在RyzenAI平臺引領AI PC。
現在越來越多的應用可以跑在個人筆記本電腦里面,比如一些實時的協同都可以在個人電腦里面跑一些大模型,通過這些大模型作為基座,去開發各種應用,這就使得各種應用真的可以落地到端側。
我們AMD要發布的下一代高性能AI PC芯片,它也是基于我們Zen5 CPU的架構,加上了第2代XDNA,Ryzen是升級到3.5的版本,能夠提供50TOPS的算力。
在AI PC領域,用戶越來越重視隱私保護、數據安全和數據自主性。隨著重要的AI工作流程逐步在個人電腦端部署,對專用處理器的需求也隨之增加。
在PC部署上,大家對PC機的耗電需求非常大,因此非常需要NPU的處理器。NPU在性能功耗比具有非常大的優勢,相比通用的處理器,它能夠擴大35倍以上的能效,所以我們在AI PC里面有集成這個NPU。
NPU是基于我們XDNA2最新的架構,它的底層是AI處理引擎,相比之前,從算力,包括存儲都有一點幾倍的提升。
我們在數據類型上也進行了很多創新,例如對Block FP16的支持。與第一代XDNA相比,我們實現了更高的能效比,計算能力提升了5倍,功耗效率也提高了2倍。
關于關鍵數據類型的創新,就是塊狀浮點的支持。塊狀浮點的優勢在于它結合了8-bit數據類型的高性能和16-bit精度的優點,從而在數據位寬、精度以及存儲需求之間實現了理想的平衡。它在性能上與8-bit相近,同時在模型大小上僅需9-bit表征。此外,它在精度上非常接近16-bit,能夠達到與16-bit數據類型幾乎相同的99.9%的準確度。
另外一個在AI PC上的應用就是RAG推薦系統。它包括前處理步驟,其中一些處理在CPU上執行,而核心計算則在NPU,這種設計使得整個系統能夠實時處理RAG推薦系統的任務。
剛剛介紹的這些功能都是通過AMD的Ryzen軟件達到的,RyzenAI的軟件架構包括從浮點模型開始,通過內置的量化器進行優化,最后通過ONNX的表示執行到NPU里面。
我們也支持通用架構,并正在開發Unified AI software stack(軟件棧)。這一軟件棧能夠智能地識別系統中的CPU、NPU和iGPU這三種加速引擎,并自動分配最適合的引擎來處理相應的工作流程,從而實現最優性能。
我將很快分享一下AMD基于Edge&Embedded,在嵌入式和邊緣的應用。
在AMD,這個平臺是真正的一個異構計算平臺,它不僅包括可編程邏輯,也包括XDNA和ARM CPU。它能夠處理AI中的關鍵模塊,包括前處理,如LiDAR數據處理,這些都可以由可編程模塊來執行。
AI的Inference可以在XDNA架構中進行,而一些后處理、決策和Dedision Making則可以在后處理器,如CPU里面去進行。
我介紹一個Demo,它是基于AI的立體攝像頭實現的,沒有用雷達,也沒有用地圖,可以看到只是用了立體攝像頭做AI相應的處理,就能實現自動駕駛的功能。
最后我總結一下我們的優勢,我們能夠定義新的AI時代端到端的基礎設施,我們整個產品的線路是最全的,從數據中心、從邊緣,到端側,都有一整套的硬件。
我們在AI軟件上一直有非常大的投入,包括對軟件的支持,我們一直走的是開源開放的生態,讓所有的AI開發者、客戶、用戶,包括整個社區,大家都可以在我們開放的軟件平臺上貢獻,去推進整個AI軟件的快速發展,去支持在不同平臺上的各種新的模型。
我們正處在一個AI推動的社會變革中,AI的影響已經深入到我們的日常生活之中。AMD會繼續推進大模型,從云邊端的部署,以真正幫助到用戶,基于AI技術去打造一個更加方便、更加便捷的生活。