GPU是(shi)Graphics Processing Unit（圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)）的(de)(de)簡稱(cheng)，它(ta)是(shi)一種專門在(zai)個人(ren)電(dian)腦(nao)(nao)、工作(zuo)站、游(you)戲機和一些(xie)移動(dong)設備（如平板(ban)電(dian)腦(nao)(nao)、智能手機等(deng)(deng)）上運行繪圖(tu)(tu)運算工作(zuo)的(de)(de)微處(chu)(chu)(chu)(chu)理器(qi)(qi)。圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)是(shi)NVIDIA公司（NVIDIA）在(zai)1999年8月發(fa)表NVIDIA GeForce 256（GeForce 256）繪圖(tu)(tu)處(chu)(chu)(chu)(chu)理芯片(pian)時首先提出的(de)(de)概念，在(zai)此之前，電(dian)腦(nao)(nao)中處(chu)(chu)(chu)(chu)理影像輸出的(de)(de)顯示(shi)芯片(pian)，通常(chang)很少(shao)被(bei)視為是(shi)一個獨(du)立的(de)(de)運算單元。而對(dui)手冶(ye)天科技（ATi）亦提出視覺處(chu)(chu)(chu)(chu)理器(qi)(qi)（Visual Processing Unit）概念。圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)使顯卡減少(shao)對(dui)中央(yang)處(chu)(chu)(chu)(chu)理器(qi)(qi)（CPU）的(de)(de)依賴，并分擔部分原本(ben)是(shi)由中央(yang)處(chu)(chu)(chu)(chu)理器(qi)(qi)所(suo)擔當的(de)(de)工作(zuo)，尤其是(shi)在(zai)進行三維繪圖(tu)(tu)運算時，功效更加(jia)明顯。圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)所(suo)采用的(de)(de)核心(xin)技術(shu)有(you)硬(ying)件坐標轉換與光源、立體環境(jing)材(cai)質(zhi)貼圖(tu)(tu)和頂(ding)點混合、紋理壓縮和凹凸(tu)映射貼圖(tu)(tu)、雙重(zhong)紋理四(si)像素(su)256位(wei)渲(xuan)染(ran)引擎(qing)等(deng)(deng)。

圖(tu)形處理(li)器可單獨(du)(du)與專(zhuan)用(yong)電(dian)路板以(yi)及附屬組件組成(cheng)(cheng)顯(xian)卡(ka)(ka)，或(huo)(huo)單獨(du)(du)一片芯(xin)(xin)片直接內(nei)(nei)嵌(qian)入(ru)到主板上(shang)，或(huo)(huo)者內(nei)(nei)置于(yu)(yu)(yu)主板的(de)(de)北橋芯(xin)(xin)片中，現在(zai)(zai)(zai)(zai)也有(you)內(nei)(nei)置于(yu)(yu)(yu)CPU上(shang)組成(cheng)(cheng)SoC的(de)(de)。個(ge)人(ren)電(dian)腦領域中，在(zai)(zai)(zai)(zai)2007年(nian)，90%以(yi)上(shang)的(de)(de)新型臺式(shi)機(ji)和(he)筆記本電(dian)腦擁有(you)嵌(qian)入(ru)式(shi)繪圖(tu)芯(xin)(xin)片，但是在(zai)(zai)(zai)(zai)性(xing)能(neng)上(shang)往往低于(yu)(yu)(yu)不少獨(du)(du)立(li)顯(xian)卡(ka)(ka)。但2009年(nian)以(yi)后(hou)，AMD和(he)英特爾都各自大(da)力發展(zhan)內(nei)(nei)置于(yu)(yu)(yu)中央處理(li)器內(nei)(nei)的(de)(de)高(gao)性(xing)能(neng)集成(cheng)(cheng)式(shi)圖(tu)形處理(li)核(he)心，它們(men)的(de)(de)性(xing)能(neng)在(zai)(zai)(zai)(zai)2012年(nian)時(shi)已經勝于(yu)(yu)(yu)那些低端(duan)獨(du)(du)立(li)顯(xian)卡(ka)(ka)，這使(shi)得不少低端(duan)的(de)(de)獨(du)(du)立(li)顯(xian)卡(ka)(ka)逐(zhu)漸失去市場需(xu)求，兩(liang)大(da)個(ge)人(ren)電(dian)腦圖(tu)形處理(li)器研發巨頭中，AMD以(yi)AMD APU產品(pin)線(xian)取代旗下大(da)部分的(de)(de)低端(duan)獨(du)(du)立(li)顯(xian)示核(he)心產品(pin)線(xian)。而在(zai)(zai)(zai)(zai)手持(chi)設(she)備領域上(shang)，隨著一些如平(ping)板電(dian)腦等設(she)備對圖(tu)形處理(li)能(neng)力的(de)(de)需(xu)求越來越高(gao)，不少廠商像是高(gao)通（Qualcomm）、Imagination、ARM、NVIDIA等，也在(zai)(zai)(zai)(zai)這個(ge)領域“大(da)顯(xian)身(shen)手”。

GPU不同(tong)于(yu)傳(chuan)統的CPU，如Intel i5或i7處理器(qi)，其內(nei)核(he)數(shu)量較少，專(zhuan)為(wei)通用計(ji)算(suan)(suan)而(er)設(she)計(ji)。相反，GPU是一種(zhong)特(te)殊類型的處理器(qi)，具(ju)有數(shu)百或數(shu)千個(ge)內(nei)核(he)，經過(guo)優化，可并行(xing)(xing)運(yun)行(xing)(xing)大量計(ji)算(suan)(suan)。雖然(ran)GPU在游(you)戲中以3D渲染(ran)而(er)聞(wen)名，但它們(men)對(dui)運(yun)行(xing)(xing)分析(xi)、深度學習(xi)和機器(qi)學習(xi)算(suan)(suan)法(fa)尤其有用。GPU允許(xu)某些(xie)計(ji)算(suan)(suan)比傳(chuan)統CPU上運(yun)行(xing)(xing)相同(tong)的計(ji)算(suan)(suan)速度快(kuai)10倍至(zhi)100倍。

本期的(de)(de)智能內參(can)，我們推薦方正證券的(de)(de)報告《GPU研究框(kuang)架(jia)》，從(cong)GPU的(de)(de)底(di)層技(ji)術、產業鏈發展情況和國(guo)產GPU的(de)(de)自主之路三方面全面解析(xi)GPU及其產業。

本(ben)期內參來源：方正證券

原標題：

《GPU研究框架》

作者：陳杭等

一、GPU：專用計算時代的“畫師”

GPU（graphics processing unit）圖(tu)(tu)(tu)形處(chu)(chu)(chu)(chu)理(li)(li)器，又稱顯示核心、視覺處(chu)(chu)(chu)(chu)理(li)(li)器、顯示芯(xin)片(pian)，是一(yi)種在(zai)個人(ren)電(dian)腦(nao)(nao)、工(gong)作站、游戲(xi)機(ji)和(he)一(yi)些移動設備（如平板電(dian)腦(nao)(nao)、智能手機(ji)等）上做圖(tu)(tu)(tu)像(xiang)和(he)圖(tu)(tu)(tu)形相(xiang)關(guan)運算工(gong)作的(de)微處(chu)(chu)(chu)(chu)理(li)(li)器。GPU通(tong)常包(bao)括圖(tu)(tu)(tu)形顯存控制(zhi)器、壓(ya)縮(suo)單(dan)元、BIOS、圖(tu)(tu)(tu)形和(he)計(ji)算整列、總線接口、電(dian)源管(guan)理(li)(li)單(dan)元、視頻管(guan)理(li)(li)單(dan)元、顯示界(jie)面。GPU的(de)出現使計(ji)算機(ji)減少了對CPU的(de)依(yi)賴，并解(jie)放(fang)了部分(fen)原本CPU的(de)工(gong)作。在(zai)3D圖(tu)(tu)(tu)形處(chu)(chu)(chu)(chu)理(li)(li)時，GPU采(cai)用的(de)核心技術有硬件T&L（幾何轉換和(he)光照處(chu)(chu)(chu)(chu)理(li)(li)）、立方環境材質貼圖(tu)(tu)(tu)和(he)頂(ding)點(dian)混(hun)合(he)、紋(wen)理(li)(li)壓(ya)縮(suo)和(he)凹凸(tu)映(ying)射貼圖(tu)(tu)(tu)、雙(shuang)重紋(wen)理(li)(li)四像(xiang)素(su)256位渲染引擎等，而硬件T&L技術可以(yi)說是GPU的(de)標志。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU的內部(bu)組成部(bu)分

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU核心及PCB板

GPU的微架構（Micro Architecture）是一種給定的指令集和圖形函數集合在處理器中執行的方法。圖(tu)形(xing)函數主要(yao)(yao)用(yong)于繪制各(ge)種圖(tu)形(xing)所需要(yao)(yao)的(de)(de)運算(suan)。當前和(he)(he)像素、光影處理、3D坐標變換等相關運算(suan)由GPU硬件加速來(lai)實(shi)現。相同的(de)(de)指令集和(he)(he)圖(tu)形(xing)函數集合可(ke)以在不同的(de)(de)微(wei)架構(gou)(gou)中執行，但實(shi)施的(de)(de)目的(de)(de)和(he)(he)效果可(ke)能不同。優秀(xiu)的(de)(de)微(wei)架構(gou)(gou)對GPU性(xing)能和(he)(he)效能的(de)(de)提(ti)升發揮著至關重要(yao)(yao)的(de)(de)作用(yong)，GPU體系(xi)是GPU微(wei)架構(gou)(gou)和(he)(he)圖(tu)形(xing)API的(de)(de)集合。

以目前最(zui)新的(de)英偉(wei)達安培微架(jia)構為例，GPU微架(jia)構的(de)運算(suan)部份由(you)流處理器(qi)(Stream Processor，SP)、紋理單(dan)元(yuan)(yuan)(yuan)(yuan)（Texture mapping unit, TMU)、張量(liang)單(dan)元(yuan)(yuan)(yuan)(yuan)（Tensor Core）、光(guang)線追蹤單(dan)元(yuan)(yuan)(yuan)(yuan)（RT Cores）、光(guang)柵化處理單(dan)元(yuan)(yuan)(yuan)(yuan)（ROPs）組成。這些運算(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)中，張量(liang)單(dan)元(yuan)(yuan)(yuan)(yuan)，光(guang)線追蹤單(dan)元(yuan)(yuan)(yuan)(yuan)由(you)NVIDIA在伏(fu)特/圖(tu)靈微架(jia)構引入。

除了上述運算(suan)單元外(wai)，GPU的微架構還(huan)包含L0/L1操作緩存(cun)(cun)、Warp調度器(qi)、分(fen)配單元（Dispatch Unit）、寄存(cun)(cun)器(qi)堆（register file）、特殊功能單元（Special function unit，SFU）、存(cun)(cun)取單元、顯卡(ka)互(hu)聯單元（NV Link)、PCIe總線接(jie)口(kou)、L2緩存(cun)(cun)、二代高位寬顯存(cun)(cun)（HBM2）等接(jie)口(kou)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達安培內核概覽

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達安培內核“SM”單元

GPU的流(liu)處理器(qi)單(dan)元(yuan)是NVIDIA對(dui)其統一(yi)架構GPU內通用(yong)標量著色器(qi)的命名(ming)。SP單(dan)元(yuan)是全(quan)新的全(quan)能渲染(ran)單(dan)元(yuan)，是繼(ji)Pixel Pipelines（像(xiang)素管(guan)線(xian)）和Vertex Pipelines（頂點(dian)管(guan)線(xian)）之后新一(yi)代的顯(xian)卡渲染(ran)技術指標。SP單(dan)元(yuan)既可以(yi)完(wan)成(cheng)VS（Vertex Shader，頂點(dian)著色器(qi)）運算，也可以(yi)完(wan)成(cheng)PS（Pixel Shader，像(xiang)素著色器(qi)）運算，而且(qie)可以(yi)根(gen)據(ju)需(xu)要組成(cheng)任(ren)意VS/PS比例，從而給開發者更廣(guang)闊的發揮空間。

流處(chu)理(li)器單元首次(ci)出現于DirectX 10時代(dai)的(de)G80核(he)心(xin)的(de)Nvidia GeForce 8800GTX顯卡(ka)，是(shi)顯卡(ka)發展史(shi)上一(yi)次(ci)重大的(de)革新。之后(hou)AMD/ATI的(de)顯卡(ka)也(ye)引入(ru)了這一(yi)概念，但是(shi)流處(chu)理(li)器在橫(heng)向和縱向都不可(ke)類比，大量的(de)流處(chu)理(li)器是(shi)GPU性能(neng)強勁的(de)必要非充分(fen)條件。

紋理(li)映(ying)射單元（TMU）作為GPU的(de)部(bu)件，它能夠對二進制(zhi)圖像旋轉、縮(suo)放(fang)、扭曲，然后將其(qi)作為紋理(li)放(fang)置(zhi)到(dao)給定3D模型的(de)任意(yi)平(ping)面，這個過程稱為紋理(li)映(ying)射。紋理(li)映(ying)射單元不可(ke)簡單跨平(ping)臺橫向比較，大量的(de)紋理(li)映(ying)射單元是GPU性能強(qiang)勁的(de)必(bi)要非充分條件。

光柵化處理(li)單(dan)元(yuan)（ROPs）主要負責游(you)戲(xi)中(zhong)的(de)光線和(he)反(fan)射(she)運算，兼顧AA、高分辨率、煙霧、火焰等(deng)效(xiao)果。游(you)戲(xi)里的(de)抗鋸齒和(he)光影(ying)效(xiao)果越(yue)厲害，對ROPs的(de)性能要求就越(yue)高，否則可能導致(zhi)幀數(shu)的(de)急劇(ju)下降(jiang)。NVIDIA的(de)ROPs單(dan)元(yuan)是和(he)流處理(li)器進(jin)行捆綁的(de)，二者同比(bi)例增減。在AMD GPU中(zhong)，ROPs單(dan)元(yuan)和(he)流處理(li)器單(dan)元(yuan)沒(mei)有直接(jie)捆綁關系。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達(da)安(an)培內核SP、ROPs、TMU拆解

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達RTX 3080 GPU-Z參數(shu)

消(xiao)費GPU的(de)(de)實(shi)時(shi)(shi)光(guang)線追(zhui)蹤在2018年由英(ying)偉達的(de)(de)“圖(tu)靈(ling)”GPU首次(ci)引(yin)入，光(guang)追(zhui)單(dan)(dan)元（RT Cores）在此過程中發揮著(zhu)決定性的(de)(de)作(zuo)用。圖(tu)靈(ling)GPU的(de)(de)光(guang)追(zhui)單(dan)(dan)元支持邊界體(ti)積層次(ci)加(jia)速，實(shi)時(shi)(shi)陰影(ying)、環境光(guang)、照明和(he)反射，光(guang)追(zhui)單(dan)(dan)元和(he)光(guang)柵(zha)單(dan)(dan)元可以協同工作(zuo)，進一步(bu)提高幀數和(he)陰影(ying)的(de)(de)真實(shi)感(gan)。

光(guang)追單(dan)元在英(ying)偉達的RTX光(guang)線追蹤技術、微(wei)軟DXR API、英(ying)偉達Optix API和Vulkan光(guang)追API的支持(chi)下可以充分(fen)發揮性(xing)能。擁有68個光(guang)追單(dan)元的RTX2080Ti在光(guang)線處(chu)理(li)性(xing)能上較無光(guang)追單(dan)元的GTX1080Ti強10倍。

張(zhang)量單(dan)元(yuan)（Tensor Core）在2017年由英偉達的(de)“伏特”GPU中被首(shou)次引(yin)入(ru)。張(zhang)量單(dan)元(yuan)主要用于實(shi)時深度學習，服務于人(ren)(ren)工智能，大型矩陣運算和(he)深度學習超級采樣(yang)（DLSS），可以帶(dai)來驚人(ren)(ren)的(de)游戲和(he)專業(ye)圖像顯(xian)示，同時提供基于云系統(tong)的(de)快速人(ren)(ren)工智能。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英(ying)偉達RTX2080Ti張量單(dan)元算力

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達圖靈GPU光追單元(yuan)運作流(liu)程

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達圖靈GPU張量單元提供多精度AI

GPU的API（Application Programming Interface）應用(yong)程(cheng)序接口(kou)發揮著連(lian)接應用(yong)程(cheng)序和顯卡驅(qu)動的橋梁作用(yong)。不過隨著系統(tong)優化的深入，API也可以直(zhi)接統(tong)籌管理高級語言、顯卡驅(qu)動和底層匯編(bian)語言。

3D API能(neng)夠(gou)讓編程(cheng)人(ren)員所設(she)(she)計的(de)3D軟(ruan)(ruan)件(jian)只需調動(dong)其API內的(de)程(cheng)序(xu)，讓API自動(dong)和硬件(jian)的(de)驅動(dong)程(cheng)序(xu)溝通，啟動(dong)3D芯片內強大(da)的(de)3D圖形(xing)處理功能(neng)，從(cong)而大(da)幅地提高3D程(cheng)序(xu)的(de)設(she)(she)計效率。同樣的(de)，GPU廠家也(ye)可以根據API標準來(lai)設(she)(she)計GPU芯片，以達到在(zai)API調用硬件(jian)資源時的(de)最(zui)優(you)化，獲(huo)得更好的(de)性能(neng)。3D API可以實(shi)現不(bu)(bu)同廠家的(de)硬件(jian)、軟(ruan)(ruan)件(jian)最(zui)大(da)范圍兼容。如果沒有API，那(nei)么開發人(ren)員必須對(dui)(dui)不(bu)(bu)同的(de)硬件(jian)進行一對(dui)(dui)一的(de)編碼，這樣會帶來(lai)大(da)量的(de)軟(ruan)(ruan)件(jian)適配問題(ti)和編碼成本。

目前(qian)GPU API可(ke)以分為2大(da)陣營和若干其他類。2大(da)陣營分別是(shi)微軟的DirectX標準和KhronosGroup標準，其他類包括蘋果的Metal API、AMD的Mantle（地幔(man)）API、英特爾的One API等(deng)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲微軟(ruan)DirectX和(he)Khronos Group API組(zu)合對(dui)比

DirectX是(shi)Direct eXtension的(de)(de)簡稱，作(zuo)為(wei)一(yi)種API，是(shi)由微軟公司(si)創建(jian)的(de)(de)多媒(mei)(mei)體編程(cheng)接口。DirectX可以讓以Windows為(wei)平(ping)臺的(de)(de)游(you)(you)戲(xi)或多媒(mei)(mei)體程(cheng)序獲得更高的(de)(de)執行效率(lv)，加強3D圖形和聲音(yin)效果，并提供設(she)計人員一(yi)個共(gong)同的(de)(de)硬件(jian)驅動標準，讓游(you)(you)戲(xi)開發者不必為(wei)每一(yi)品(pin)牌的(de)(de)硬件(jian)來寫不同的(de)(de)驅動程(cheng)序，也降低用(yong)戶安裝(zhuang)及設(she)置硬件(jian)的(de)(de)復雜(za)度。DirectX已被廣泛使用(yong)于Windows操作(zuo)系統和Xbox主機的(de)(de)電子游(you)(you)戲(xi)開發。

OpenGL是Open Graphics Library的(de)(de)簡(jian)稱，是用于(yu)渲染2D、3D矢量圖形(xing)的(de)(de)跨語言、跨平臺的(de)(de)應用程(cheng)序編程(cheng)接(jie)口(kou)（API），相(xiang)比DirectX更加開放。這個接(jie)口(kou)由近(jin)350個不同的(de)(de)函數調(diao)用組成，用來繪制(zhi)從簡(jian)單的(de)(de)二(er)維圖形(xing)到復雜的(de)(de)三(san)維景象。OpenGL常用于(yu)CAD、虛擬現實、科學可視化程(cheng)序和電子游戲開發。

正是由于OpenGL的(de)開放(fang)，所以(yi)它(ta)可以(yi)被運行在(zai)Windows、MacOS、Linux、安(an)卓、iOS等多個操作(zuo)系統上，學(xue)習門檻也比DirectX更低。但是，效率低是OpenGL的(de)主要缺點。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲DirectX和OpenGL特點對比(bi)

Metal是Apple在(zai)(zai)2014年(nian)創建(jian)的(de)接(jie)近底(di)(di)層的(de)，低開銷的(de)硬(ying)件(jian)加(jia)速(su)3D圖形和(he)計算著色器API。Metal在(zai)(zai)iOS 8中首次亮相(xiang)(xiang)。Metal在(zai)(zai)一個(ge)API中結合了(le)類似(si)于OpenGL和(he)OpenCL的(de)功能。它旨在(zai)(zai)通(tong)過(guo)為(wei)iOS，iPadOS，macOS和(he)tvOS上的(de)應(ying)用(yong)程序提(ti)(ti)供(gong)對GPU硬(ying)件(jian)的(de)底(di)(di)層訪問(wen)來提(ti)(ti)高(gao)性能。相(xiang)(xiang)較(jiao)于OpenGL ES，Metal減少了(le)10倍(bei)的(de)代碼擁擠，提(ti)(ti)供(gong)了(le)更好的(de)解決方(fang)案，并將會(hui)在(zai)(zai)蘋(pin)果設(she)備中取(qu)代OpenGL。Metal也(ye)支持英(ying)特爾HD和(he)IRIS系列GPU、AMD的(de)GCN和(he)RDNA GPU、NVIDIA GPU。Metal也(ye)是可以使(shi)用(yong)Swift或Objective-C編(bian)程語言調(diao)用(yong)的(de)面向對象的(de)API。GPU的(de)全(quan)部操作是通(tong)過(guo)Metal著色語言控制的(de)。

2017年，蘋果推出了Metal的(de)升級版Metal2，兼(jian)容前代Metal硬(ying)件，支持iOS11，MacOS和(he)(he)tvOS11。Metal2可以在(zai)Xcode中(zhong)更有效(xiao)地進(jin)行配置和(he)(he)調試(shi)，加快機器學習(xi)速(su)度，降低CPU工作(zuo)量，在(zai)MacOS上(shang)支持VR，充分發揮A11 GPU的(de)特性。

Vulkan是一種(zhong)低(di)開(kai)銷，跨(kua)平(ping)臺的3D圖(tu)像和(he)計算API。Vulkan面向跨(kua)所有平(ping)臺的高(gao)性能實時3D圖(tu)形應用(yong)程序(xu)，如視頻游戲和(he)交互(hu)式媒體(ti)。與OpenGL，Direct3D 11和(he)Metal相比，Vulkan旨(zhi)在提(ti)供更高(gao)的性能和(he)更平(ping)衡的CPU/GPU用(yong)法。除了較低(di)的CPU使用(yong)外，Vulkan還(huan)旨(zhi)在使開(kai)發(fa)人員更好(hao)地在多核CPU中分配工作。

Vulkan源自(zi)并基于AMD的(de)(de)Mantle API組(zu)件，最初的(de)(de)版本(ben)被(bei)稱為OpenGL的(de)(de)下(xia)一(yi)代(dai)。最新的(de)(de)Vulkan1.2發布于2020年1月(yue)15日，該(gai)版本(ben)整合了23個額外(wai)經(jing)常被(bei)使用的(de)(de)Vulkan拓展。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Metal與OpenGL性能對(dui)比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲OpenGL和Vulkan對比

軟件生態(tai)方(fang)面，GPU無(wu)法單獨工(gong)作，必須由CPU進行控制調用才能(neng)工(gong)作，而CPU在處理大量類型一致的(de)數據時，則可調用GPU進行并行計算。所以，GPU的(de)生態(tai)和CPU的(de)生態(tai)是高度相關的(de)。

近(jin)年(nian)來，在摩爾(er)定(ding)律演(yan)進的放(fang)緩和(he)GPU在通用計(ji)算(suan)領域的高速發(fa)展的此消彼長(chang)之下，通用圖形處理(li)器(qi)（GPGPU）逐(zhu)漸“反客為主(zhu)”，利用GPU來計(ji)算(suan)原本(ben)由CPU處理(li)的通用計(ji)算(suan)任務。

目前，各(ge)個GPU廠商的(de)GPGPU的(de)實(shi)現方法不盡相同，如NVIDIA使用的(de)CUDA（compute unified device architecture）技(ji)術(shu)、原ATI的(de)ATI Stream技(ji)術(shu)、Open CL聯盟、微(wei)軟的(de)DirectCompute技(ji)術(shu)。這些技(ji)術(shu)可(ke)以讓GPU在媒體編碼加(jia)速、視頻補(bu)幀(zhen)與畫面優化、人工智(zhi)能(neng)與深度(du)學習(xi)、科研(yan)領域、超級計(ji)算機等(deng)方面發揮異構加(jia)速的(de)優勢。以上4種技(ji)術(shu)中，只(zhi)有OpenCL支持跨平(ping)臺和開放標注的(de)特性，還可(ke)以使用專門的(de)可(ke)編程電路來加(jia)速計(ji)算，業界支持非常廣泛。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲DirectX和(he)OpenGL生態對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲OpenCL聯盟生態(tai)

GPU根(gen)據接入(ru)方(fang)式(shi)(shi)可(ke)以(yi)劃(hua)分為(wei)獨(du)立(li)(li)(li)GPU和集成(cheng)(cheng)GPU。獨(du)立(li)(li)(li)GPU一(yi)(yi)般封(feng)裝(zhuang)在獨(du)立(li)(li)(li)的(de)顯(xian)卡電路板(ban)上，擁有獨(du)立(li)(li)(li)顯(xian)存，而(er)集成(cheng)(cheng)GPU常(chang)和CPU共(gong)用一(yi)(yi)個Die，共(gong)享(xiang)(xiang)系統內存。GPU根(gen)據接入(ru)方(fang)式(shi)(shi)可(ke)以(yi)劃(hua)分為(wei)獨(du)立(li)(li)(li)GPU和集成(cheng)(cheng)GPU。獨(du)立(li)(li)(li)GPU一(yi)(yi)般封(feng)裝(zhuang)在獨(du)立(li)(li)(li)的(de)顯(xian)卡電路板(ban)上，擁有獨(du)立(li)(li)(li)顯(xian)存，而(er)集成(cheng)(cheng)GPU常(chang)和CPU共(gong)用一(yi)(yi)個Die，共(gong)享(xiang)(xiang)系統內存。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU的主要分類

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲獨立GPU

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲集成(cheng)GPU Die

GPU顯(xian)存(cun)是用(yong)來存(cun)儲(chu)顯(xian)卡芯片處(chu)理過或者即將提取的渲染數據，是GPU正常運作不可(ke)(ke)或缺的核心部件之(zhi)一。GPU的顯(xian)存(cun)可(ke)(ke)以分為獨立顯(xian)存(cun)和集(ji)(ji)成顯(xian)存(cun)兩(liang)種(zhong)。目前，獨立顯(xian)存(cun)主要(yao)采用(yong)GDDR3、GDDR5、GDDR5X、GDDR6，而集(ji)(ji)成顯(xian)存(cun)主要(yao)采用(yong)DDR3、DDR4。服(fu)務器GPU偏好使用(yong)Chiplet形式的HBM顯(xian)存(cun)，最大(da)化吞吐量。

集成顯(xian)存受(shou)制(zhi)于64位操作系統的限制(zhi)，即(ji)便組成2通(tong)道甚(shen)至(zhi)4通(tong)道，與獨立顯(xian)存的帶寬仍有相(xiang)當差距。通(tong)常這也造成了獨立GPU的性能強于集成GPU。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲顯存的主要分類

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲獨立(li)顯存的工作方式(shi)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲獨立顯存的工作方(fang)式

集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)是指(zhi)一(yi)(yi)般不帶顯存(cun)(cun)，而是使用(yong)(yong)系(xi)統(tong)的(de)(de)一(yi)(yi)部分(fen)(fen)主內存(cun)(cun)作為顯存(cun)(cun)的(de)(de)顯卡(ka)(ka)(ka)(ka)(ka)。集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)可以(yi)(yi)被整(zheng)(zheng)合(he)進主板作為北橋芯片(pian)的(de)(de)一(yi)(yi)部分(fen)(fen)，也可以(yi)(yi)和CPU集(ji)(ji)成(cheng)在(zai)同一(yi)(yi)個(ge)Die中(zhong)。集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)的(de)(de)顯存(cun)(cun)一(yi)(yi)般根據系(xi)統(tong)軟件和應(ying)用(yong)(yong)軟件的(de)(de)需(xu)求(qiu)自動調(diao)整(zheng)(zheng)。如果顯卡(ka)(ka)(ka)(ka)(ka)運(yun)行需(xu)要占用(yong)(yong)大量內存(cun)(cun)空(kong)間，那么(me)整(zheng)(zheng)個(ge)系(xi)統(tong)運(yun)行會受(shou)限，此(ci)外系(xi)統(tong)內存(cun)(cun)的(de)(de)頻(pin)率通常比獨立顯卡(ka)(ka)(ka)(ka)(ka)的(de)(de)顯存(cun)(cun)低很(hen)多，因此(ci)集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)的(de)(de)性能比獨立顯卡(ka)(ka)(ka)(ka)(ka)要遜色一(yi)(yi)些。

獨(du)立(li)(li)顯卡是將(jiang)顯示(shi)芯片(pian)及相關(guan)器件(jian)制作(zuo)成(cheng)一(yi)個獨(du)立(li)(li)于電腦主板的(de)板卡，成(cheng)為(wei)專業的(de)圖像處(chu)(chu)理硬件(jian)設備。獨(du)立(li)(li)顯卡因為(wei)具備高(gao)位寬(kuan)、高(gao)頻獨(du)立(li)(li)顯存和更多(duo)的(de)處(chu)(chu)理單元，性能(neng)遠(yuan)比集成(cheng)顯卡優越，不僅(jin)可(ke)用于一(yi)般性的(de)工作(zuo)，還具有完善的(de)2D效果(guo)和很強的(de)3D水平，因此常應用于高(gao)性能(neng)臺(tai)式(shi)機和筆記本電腦，主要的(de)接口為(wei)PCIe。

如(ru)今，獨立顯(xian)卡(ka)與集成顯(xian)卡(ka)已經不是2個完全割(ge)裂，各自(zi)為營(ying)的(de)圖像處理單元了。二者在(zai)微(wei)軟(ruan)DX12的(de)支持(chi)下(xia)也可(ke)以實現(xian)獨核顯(xian)交(jiao)(jiao)火，同時AMD和NVIDIA的(de)顯(xian)卡(ka)也可(ke)實現(xian)混合(he)交(jiao)(jiao)火。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲集成顯(xian)卡(ka)和獨立顯(xian)卡(ka)對比

GPU對比CPU：從芯片設(she)計(ji)(ji)思路看(kan)，CPU是(shi)以低(di)延遲為(wei)導(dao)向(xiang)的計(ji)(ji)算(suan)單(dan)元(yuan)，通常由(you)專為(wei)串行(xing)處理而(er)優化的幾(ji)個核心組(zu)(zu)成(cheng)，而(er)GPU是(shi)以吞吐量為(wei)導(dao)向(xiang)的計(ji)(ji)算(suan)單(dan)元(yuan)，由(you)數以千(qian)計(ji)(ji)的更小(xiao)、更高(gao)效的核心組(zu)(zu)成(cheng)，專為(wei)并行(xing)多(duo)任務設(she)計(ji)(ji)。

CPU和GPU設計思(si)路的不(bu)(bu)同導致微(wei)架構的不(bu)(bu)同。CPU的緩存大于GPU，但在線程數，寄存器(qi)數和SIMD（單指令多數據流）方面(mian)GPU遠強于CPU。

微架構(gou)的(de)不同最終(zhong)導(dao)致CPU中(zhong)大部(bu)分(fen)的(de)晶(jing)體(ti)管(guan)用(yong)于(yu)構(gou)建控(kong)制電路和緩(huan)存，只有少部(bu)分(fen)的(de)晶(jing)體(ti)管(guan)完成實(shi)際的(de)運算工作(zuo)，功能模塊(kuai)很多，擅長分(fen)支預測等復雜(za)操(cao)作(zuo)。GPU的(de)流處理器和顯存控(kong)制器占據(ju)了絕大部(bu)分(fen)晶(jing)體(ti)管(guan)，而控(kong)制器相對(dui)簡單(dan)，擅長對(dui)大量數(shu)據(ju)進行(xing)簡單(dan)操(cao)作(zuo)，擁有遠勝于(yu)CPU的(de)強大浮點計算能力。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU和CPU的核心設(she)計思路對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU和CPU的核心對(dui)比(bi)

后摩爾時代，隨著GPU的可編程性不斷增強，GPU的應用能力已經遠遠超出了圖形渲染，部份GPU被用于圖形渲染以外領域的計算成為GPGPU。與此同時，CPU為了追求(qiu)通用(yong)(yong)性，只(zhi)有少部分(fen)晶體管被(bei)用(yong)(yong)于完成(cheng)運(yun)算(suan)，而大(da)部分(fen)晶體管被(bei)用(yong)(yong)于構(gou)建控制電(dian)路和高速緩存。但是由(you)于GPU對(dui)CPU的(de)(de)依附性以(yi)及(ji)GPU相較CPU更(geng)高的(de)(de)開發難度，所以(yi)GPU不可能完全(quan)取代CPU。我們認為未來計算(suan)架(jia)構(gou)將是GPU+CPU的(de)(de)異構(gou)運(yun)算(suan)體系。

在GPU+CPU的(de)(de)(de)異構運算中，GPU和CPU之間可以(yi)無(wu)縫地(di)共享數據(ju)，而(er)無(wu)需內存拷貝(bei)和緩存刷新(xin)，因為(wei)任務(wu)以(yi)極低的(de)(de)(de)開銷被(bei)調度到合適的(de)(de)(de)處(chu)理(li)器上。CPU憑借多個專為(wei)串行處(chu)理(li)而(er)優化的(de)(de)(de)核心運行程序(xu)的(de)(de)(de)串行部份，而(er)GPU使(shi)用數以(yi)千(qian)計的(de)(de)(de)小(xiao)核心運行程序(xu)的(de)(de)(de)并行部分(fen)，充分(fen)發揮協同效應(ying)和比較優勢。

異(yi)構(gou)運算除了(le)需要(yao)相關(guan)的(de)CPU和GPU等硬件支持(chi)，還需要(yao)能將它們有效組織(zhi)的(de)軟件編程。OpenCL是（OpenComputing Language）的(de)簡稱(cheng)，它是第一個為(wei)異(yi)構(gou)系統的(de)通用并(bing)行(xing)編程而產生的(de)統一的(de)、免費(fei)的(de)標準。OpenCL支持(chi)由多(duo)核的(de)CPU、GPU、Cell架構(gou)以(yi)及(ji)信號處理器(qi)(DSP)等其(qi)他并(bing)行(xing)設備組成的(de)異(yi)構(gou)系統。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲OpenCL異構(gou)(gou)運算(suan)構(gou)(gou)成

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲異構運算下的GPU工作流程

GPU與ASIC和FPGA的對比：數(shu)據、算(suan)力(li)和算(suan)法是(shi)AI三大要素，CPU配合加速芯(xin)片(pian)的模式成為典型的AI部(bu)署方(fang)案，CPU提供算(suan)力(li)，加速芯(xin)片(pian)提升算(suan)力(li)并助推算(suan)法的產(chan)生。常見的AI加速芯(xin)片(pian)包括GPU、FPGA、ASIC三類。

GPU用于大(da)量(liang)重復計(ji)(ji)算，由數以千(qian)計(ji)(ji)的(de)更小、更高效(xiao)的(de)核心組成大(da)規(gui)模(mo)并行計(ji)(ji)算架(jia)構，配備GPU的(de)服(fu)務器(qi)可取(qu)代(dai)數百臺(tai)通用CPU服(fu)務器(qi)來處理HPC和AI業務。

FPGA是一(yi)種半(ban)定制(zhi)芯(xin)片，靈活性強集(ji)成(cheng)(cheng)度高，但運(yun)算量(liang)小，量(liang)產成(cheng)(cheng)本高，適用(yong)于(yu)算法更新頻(pin)繁(fan)或(huo)市場(chang)規模小的(de)專(zhuan)用(yong)領域(yu)。

ASIC專(zhuan)用性(xing)強，市場需(xu)求量大(da)的專(zhuan)用領域，但開發周期較長(chang)且(qie)難度極高。

在AI訓練(lian)階段需要大量(liang)數(shu)據(ju)運算，GPU預計占64%左(zuo)右市(shi)場(chang)份(fen)額，FPGA和ASIC分(fen)(fen)別(bie)為22%和14%。推理(li)階段無需大量(liang)數(shu)據(ju)運算，GPU將占據(ju)42%左(zuo)右市(shi)場(chang)，FPGA和ASIC分(fen)(fen)別(bie)為34%和24%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲不同(tong)應用(yong)場景AI芯片(pian)性能需求(qiu)和具體指標

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU、FPGA、ASIC AI芯片對比

在(zai)PC誕生之初，并不(bu)存(cun)在(zai)GPU的(de)(de)(de)概念，所有(you)的(de)(de)(de)圖(tu)形和(he)多(duo)媒體(ti)運算(suan)都由CPU負責。但是(shi)(shi)由于X86 CPU的(de)(de)(de)暫存(cun)器數(shu)量(liang)有(you)限，適合(he)串行計算(suan)而不(bu)適合(he)并行計算(suan)，雖然以(yi)英特爾為代(dai)表的(de)(de)(de)廠商(shang)多(duo)次推出SSE等多(duo)媒體(ti)拓展指(zhi)令集(ji)試圖(tu)彌補CPU的(de)(de)(de)缺(que)陷(xian)，但是(shi)(shi)僅僅在(zai)指(zhi)令集(ji)方面的(de)(de)(de)改進不(bu)能(neng)起到根本效果(guo)，所以(yi)誕生了圖(tu)形加(jia)速器作為CPU的(de)(de)(de)輔助運算(suan)單元。

GPU的發展史概括說來就(jiu)是NVIDIA、AMD(ATI)的發展史，在此過程中(zhong)曾經的GPU巨(ju)頭Imagination、3dfx、東芝等紛紛被(bei)后輩(bei)超越。如今(jin)獨(du)立顯卡(ka)領域主(zhu)要由英偉(wei)達和AMD控制(zhi)，而集(ji)成顯卡(ka)領域由英特爾(er)和AMD控制(zhi)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU的發展史

英偉達的(de)GPU架構(gou)自2008年以(yi)來幾(ji)乎一直保持著每(mei)(mei)2年一次大(da)更(geng)(geng)(geng)新(xin)的(de)節奏，帶來更(geng)(geng)(geng)多(duo)更(geng)(geng)(geng)新(xin)的(de)運(yun)算(suan)(suan)(suan)單元(yuan)和更(geng)(geng)(geng)好(hao)的(de)API適(shi)配性。在(zai)每(mei)(mei)次的(de)大(da)換代(dai)(dai)之間，不乏(fa)有一次的(de)小升級，如(ru)采(cai)用開(kai)普(pu)勒二代(dai)(dai)微架構(gou)的(de)GK110核心相較于采(cai)用初代(dai)(dai)開(kai)普(pu)勒微架構(gou)的(de)GK104核心，升級了(le)(le)顯卡智能(neng)動(dong)態超頻技術(shu)，CUDA運(yun)算(suan)(suan)(suan)能(neng)力提升至3.5代(dai)(dai)，極致流式多(duo)處理(li)器（SMX）的(de)浮(fu)點運(yun)算(suan)(suan)(suan)單元(yuan)提升8倍，加入(ru)了(le)(le)Hyper-Q技術(shu)提高GPU的(de)利用率(lv)并削減了(le)(le)閑置，更(geng)(geng)(geng)新(xin)了(le)(le)網格管理(li)單元(yuan)（Grid Management Unit），為動(dong)態并行技術(shu)提供了(le)(le)靈(ling)活性。

英(ying)偉(wei)達GPU微架構的(de)持續更新，使英(ying)偉(wei)達GPU的(de)能效(xiao)提升了數十倍(bei)，占(zhan)領了獨立顯(xian)卡技術(shu)的(de)制高點。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2008-2020英偉達GPU微架(jia)構進(jin)化

圖形API在GPU的運算過程中發揮著連接高級語言、顯(xian)(xian)卡驅動乃至(zhi)底層匯編語言的作用，充當(dang)GPU運行(xing)和開發的“橋(qiao)梁”和“翻譯官”。微軟DirectX標準可以劃分為顯(xian)(xian)示(shi)部份、聲音部份、輸入部分和網絡(luo)部分，其(qi)中與GPU具(ju)有最直接關系的是顯(xian)(xian)示(shi)部分。顯(xian)(xian)示(shi)部份可分為DirectDraw和Direct3D等標準，前者(zhe)主(zhu)(zhu)要負責2D圖像加速，后者(zhe)主(zhu)(zhu)要負責3D效果顯(xian)(xian)示(shi)。

從(cong)1995年發布(bu)的(de)(de)初代(dai)DirectX 1.0開(kai)始微軟的(de)(de)DirectX已經更新到了DirectX 12。在此過程(cheng)中，DirectX不斷(duan)完善(shan)對各(ge)類GPU的(de)(de)兼容，增(zeng)加開(kai)發人員的(de)(de)權限，提(ti)高(gao)GPU的(de)(de)顯示質量和運行幀數(shu)。

DirectX一般和Windows操(cao)作系統同步更新，如Windows 7推(tui)出了DX11、Windows 10推(tui)出了DX12。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲1998-2014微軟DirectX進化

GPU和(he)CPU都是以先進制(zhi)程為導向的(de)數字芯片。先進制(zhi)程可以在(zai)控制(zhi)發熱和(he)電能(neng)(neng)(neng)消耗的(de)同時，在(zai)有限的(de)Die中(zhong)放入盡可能(neng)(neng)(neng)多的(de)晶體管，提高GPU的(de)性能(neng)(neng)(neng)和(he)能(neng)(neng)(neng)效。

NVIDIA的(de)GPU從(cong)2008年GT200系列的(de)65納(na)米制程(cheng)歷經12年逐步(bu)升級到了RTX3000系列的(de)7/8納(na)米制程(cheng)，在整個過程(cheng)中，晶體管數(shu)量提升了20多(duo)倍(bei)，逐步(bu)確(que)立(li)了在獨立(li)GPU的(de)市場龍(long)頭地(di)位。

同時在整個過程中，NVIDIA一(yi)直堅持不采用(yong)IDM的模式，而(er)是讓(rang)臺(tai)積電負責GPU的制(zhi)造，自生專注于芯(xin)片設(she)計，充分發揮(hui)比較優勢。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2008-2020英偉(wei)達GPU主(zhu)要制程(cheng)和晶體管數進化

根據前12年的GPU發展軌跡來看，GPU微架構的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更多”是(shi)(shi)指晶體(ti)管數量(liang)(liang)和運(yun)(yun)算(suan)單(dan)(dan)元(yuan)(yuan)(yuan)的(de)(de)增(zeng)加，其中包括(kuo)流(liu)處(chu)理(li)器(qi)單(dan)(dan)元(yuan)(yuan)(yuan)、紋理(li)單(dan)(dan)元(yuan)(yuan)(yuan)、光(guang)柵單(dan)(dan)元(yuan)(yuan)(yuan)等數量(liang)(liang)上(shang)升(sheng)。“更專”是(shi)(shi)指除了(le)常規的(de)(de)計(ji)算(suan)單(dan)(dan)元(yuan)(yuan)(yuan)，GPU還會增(zeng)加新的(de)(de)運(yun)(yun)算(suan)單(dan)(dan)元(yuan)(yuan)(yuan)。例如，英偉達的(de)(de)圖靈(ling)架(jia)構(gou)相較(jiao)于帕斯卡(ka)架(jia)構(gou)新增(zeng)加了(le)光(guang)追(zhui)單(dan)(dan)元(yuan)(yuan)(yuan)和張(zhang)量(liang)(liang)單(dan)(dan)元(yuan)(yuan)(yuan)，分別處(chu)理(li)實時光(guang)線(xian)追(zhui)蹤和人工智能(neng)(neng)運(yun)(yun)算(suan)。“更智能(neng)(neng)”是(shi)(shi)指GPU的(de)(de)AI運(yun)(yun)算(suan)能(neng)(neng)力上(shang)升(sheng)。如第三代的(de)(de)張(zhang)量(liang)(liang)單(dan)(dan)元(yuan)(yuan)(yuan)相較(jiao)于上(shang)代在吞吐量(liang)(liang)上(shang)提升(sheng)了(le)1倍。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達GTX1080對(dui)比RTX2080

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達伏(fu)特微架構對比安培微架構AI加速(su)性(xing)能(neng)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達安培架構提升

綜合(he)分(fen)析微軟的(de)(de)DirectX12、蘋果的(de)(de)Metal2、Khronos Group的(de)(de)Vulkan API分(fen)別相(xiang)較(jiao)于(yu)前代DirectX11、Metal、OpenGL的(de)(de)升級(ji)(ji)，我們(men)認為GPU API的(de)(de)升級(ji)(ji)趨勢是提高GPU的(de)(de)運行效率、增(zeng)加高級(ji)(ji)語言和(he)顯(xian)卡驅(qu)動之間的(de)(de)連接、優化視覺特效等。其(qi)中，提供更底(di)層(ceng)的(de)(de)支持：統籌高級(ji)(ji)語言、顯(xian)卡驅(qu)動和(he)底(di)層(ceng)語言是幾乎所有API升級(ji)(ji)的(de)(de)主要(yao)方向。

不過提供更(geng)(geng)底層(ceng)的支持只是更(geng)(geng)高的幀數或(huo)更(geng)(geng)好的畫質的必要非充(chong)分(fen)條件(jian)(jian)。在整個軟(ruan)件(jian)(jian)的開發(fa)(fa)過程中，軟(ruan)件(jian)(jian)開發(fa)(fa)商需要比驅(qu)動程序(xu)和(he)系統(tong)層(ceng)更(geng)(geng)好地(di)調度硬(ying)件(jian)(jian)資源，才(cai)能(neng)充(chong)分(fen)發(fa)(fa)揮底層(ceng)API的效果。

在顯示質量(liang)方面，DirectX 12 Ultimate采用當下最新(xin)的(de)圖(tu)形(xing)硬(ying)件技術，支持光(guang)線(xian)追蹤、網格著(zhu)色(se)器和可變速率著(zhu)色(se)，PC和Xbox共用同一個(ge)API，堪稱次世代(dai)游戲的(de)全新(xin)黃金標(biao)準(zhun)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲非底層(ceng)(ceng)DirectX 11對比底層(ceng)(ceng)DirectX 12

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲DirectX 12 Ultimate新特(te)性(xing)

GPU制造升級趨勢：以先進制程為導向。GPU性能的(de)(de)(de)三(san)大決定(ding)因(yin)素為(wei)主(zhu)頻、微(wei)架(jia)構、API。這些因(yin)素中主(zhu)頻通常是由GPU的(de)(de)(de)制(zhi)程(cheng)(cheng)決定(ding)的(de)(de)(de)。制(zhi)程(cheng)(cheng)在過去通常表示晶體管或柵極長度(du)等(deng)特(te)征尺寸，不過出于營銷(xiao)的(de)(de)(de)需要，現在的(de)(de)(de)制(zhi)程(cheng)(cheng)已經偏離了本意，因(yin)此單純比較納米數沒有意義。按英特(te)爾的(de)(de)(de)觀點，每平方(fang)毫米內的(de)(de)(de)晶體管數（百萬）更(geng)能衡(heng)量制(zhi)程(cheng)(cheng)。據此，臺(tai)積電和三(san)星(xing)的(de)(de)(de)7nm工(gong)藝更(geng)接近英特(te)爾的(de)(de)(de)10nm工(gong)藝。

先(xian)進的(de)制程可以降低每(mei)一個(ge)晶體(ti)(ti)管的(de)成(cheng)本，提升晶體(ti)(ti)管密度，在(zai)GPU Die體(ti)(ti)積不(bu)變(bian)下實現更(geng)高的(de)性能(neng)；先(xian)進制程可以提升處理器的(de)效能(neng)，在(zai)性能(neng)不(bu)變(bian)的(de)情況下，減少發(fa)(fa)熱或在(zai)發(fa)(fa)熱不(bu)變(bian)的(de)情況下，通(tong)過提升主頻來拉高性能(neng)。

先進制程的(de)主(zhu)要目(mu)的(de)是降低平面結構帶來的(de)漏電率問題(ti)，提升方案可(ke)以通過(guo)改變工藝(yi)，如采用FinFET（鰭(qi)式場(chang)效應晶(jing)體管）或GAA（環繞式柵(zha)極）；或采用特殊材(cai)料，如FD-SOI（基于SOI的(de)超(chao)薄絕緣(yuan)層(ceng)上硅體技術)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲先進(jin)制程工(gong)藝之FinFET

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾10nm先進制程(cheng)帶來(lai)的性能(neng)和效(xiao)能(neng)提升

GPU制造升級趨勢：Chiplet化。高位寬內(nei)存(cun)（HBM）是(shi)小(xiao)芯片(pian)（Chiplet）在GPU中的常見應(ying)用(yong)。HBM是(shi)一(yi)種高速計算機存(cun)儲(chu)器3D堆棧SDRAM接口。首款HBM于2013年(nian)推出，第二代HBM2已于2016年(nian)被JEDEC接受。目前，HBM主(zhu)要應(ying)用(yong)在高端獨立顯卡(ka)和服務器顯卡(ka)。

HBM通過(guo)3D堆(dui)疊4個(ge)DRAM Die和(he)1片(pian)邏輯Die組(zu)成一(yi)個(ge)Chiplet，其中(zhong)(zhong)每片(pian)DRAM具(ju)有(you)(you)2個(ge)128位(wei)(wei)通道(dao)，通過(guo)TSV（硅通孔）相(xiang)連(lian)。所(suo)以，一(yi)片(pian)Chiplet總共8個(ge)128位(wei)(wei)通道(dao)，總位(wei)(wei)寬1024比(bi)特(te)。每片(pian)Chiplet又與(yu)GPU封(feng)裝(zhuang)在同一(yi)中(zhong)(zhong)介層（Interposer）連(lian)接GPU芯片(pian)。相(xiang)比(bi)之下，GDDR5內(nei)存的(de)(de)總線(xian)寬度為32位(wei)(wei)，帶(dai)有(you)(you)512位(wei)(wei)內(nei)存接口的(de)(de)顯卡(ka)也只(zhi)有(you)(you)16個(ge)通道(dao)，而(er)且采用傳統的(de)(de)FBGA封(feng)裝(zhuang)。HBM與(yu)GDDR5相(xiang)比(bi)，每GB的(de)(de)表(biao)面積減少94%，每GB/S帶(dai)寬的(de)(de)能效提(ti)升(sheng)2倍(bei)多。

HBM支持最(zui)多每個Chiplet 4GB的存(cun)儲(chu)，HBM2在HBM的基(ji)礎上(shang)將每片(pian)Chiplet的最(zui)大容量提(ti)升至了8GB，顯存(cun)主頻(pin)提(ti)升1倍，同(tong)時總(zong)位寬保(bao)持不(bu)變。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲HBM的GPU應用

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GDDR5對比HBM

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲HBM先進封裝結構

GPU制造(zao)可分為(wei)IDM和Fab+Fabless。IDM集芯(xin)(xin)片設計、芯(xin)(xin)片制造(zao)、芯(xin)(xin)片封裝和測試等多個產業鏈環節于一(yi)身。英(ying)特(te)爾為(wei)IDM的代(dai)表。

Fabless只負責芯片的(de)(de)電路設(she)計(ji)(ji)與銷售，將生(sheng)(sheng)產(chan)、測試、封裝(zhuang)等環節外包。蘋果(guo)和(he)(he)AMD為(wei)Fabless的(de)(de)代(dai)表。Foundry只負責制造，不負責芯片設(she)計(ji)(ji)，可(ke)以(yi)同(tong)時為(wei)多家設(she)計(ji)(ji)公(gong)司(si)服務(wu)，但受制于公(gong)司(si)間的(de)(de)競爭關(guan)系(xi)。臺積電為(wei)Foundry的(de)(de)代(dai)表。目前(qian)英特爾(er)(er)GPU落后的(de)(de)主要原(yuan)因是(shi)GPU制程的(de)(de)落后，根(gen)本原(yuan)因是(shi)英特爾(er)(er)受困于IDM運作模式。隨著28納米以(yi)下先進制程的(de)(de)發展，芯片的(de)(de)制造成(cheng)本和(he)(he)設(she)計(ji)(ji)成(cheng)本成(cheng)指數(shu)級上升。同(tong)時，一(yi)條12英寸晶(jing)圓的(de)(de)生(sheng)(sheng)產(chan)線從建設(she)到(dao)生(sheng)(sheng)產(chan)的(de)(de)周期(qi)約2年，投資至(zhi)少30-50億美元，資本支出占(zhan)比80%，整體風(feng)險非常(chang)大(da)。英特爾(er)(er)以(yi)有(you)限(xian)的(de)(de)資源(yuan)不支持它持續(xu)的(de)(de)設(she)計(ji)(ji)和(he)(he)生(sheng)(sheng)產(chan)的(de)(de)的(de)(de)兩線作戰。

Fab+Fabless的(de)模式通過充分(fen)發揮比較優勢，分(fen)散(san)了(le)GPU設(she)計和制造的(de)風險，符合半導(dao)體(ti)分(fen)工的(de)大趨勢。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲IDM與Fab+Fabless對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯片設(she)計(ji)費用趨勢（億美元(yuan)）

過去20多年里，GPU的基本需(xu)(xu)求源(yuan)于視頻(pin)加速，2D/3D游戲(xi)。隨后(hou)GPU運用(yong)自身在(zai)并行處理(li)和通用(yong)計(ji)算(suan)(suan)(suan)的優勢，逐步開(kai)拓服(fu)務器、汽車、礦機、人(ren)工智能、邊緣計(ji)算(suan)(suan)(suan)等領(ling)域的衍(yan)生需(xu)(xu)求。雖然GPU無法(fa)離開(kai)CPU獨(du)立運作，但是在(zai)當前“云化”加速的時(shi)代，離開(kai)了(le)GPU的CPU也無法(fa)勝任(ren)龐大的計(ji)算(suan)(suan)(suan)需(xu)(xu)求。所以(yi)GPU和CPU組成了(le)異構運算(suan)(suan)(suan)體系(xi)，從(cong)底層經(jing)由系(xi)統軟(ruan)件和驅動層支持(chi)著上(shang)層的各種應用(yong)。GPU已經(jing)成為(wei)了(le)專(zhuan)用(yong)計(ji)算(suan)(suan)(suan)時(shi)代的剛需(xu)(xu)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲現代(dai)云計算中GPU加速的剛需

二、GPU的全球格局

2020年全(quan)球GPU市場價(jia)值預計(ji)為(wei)(wei)254.1億美元(yuan)，預計(ji)2027年將(jiang)達到1853.1億美元(yuan)，年平(ping)均增(zeng)速為(wei)(wei)32.82%。按GPU的(de)類型進行劃分，市場可以細分為(wei)(wei)獨立、集(ji)成(cheng)(cheng)和混合。2019年，集(ji)成(cheng)(cheng)GPU占GPU市場的(de)主導地位，但是由于混合GPU同時擁有集(ji)成(cheng)(cheng)和專(zhuan)用GPU的(de)能(neng)力，所以混合細分市場預計(ji)實現(xian)最(zui)高復(fu)合增(zeng)長率。

按GPU的(de)(de)設備(bei)進行劃分，市(shi)場可細分為計算機、平板電腦、智能手機、游戲(xi)機、電視、其他。就收入而言(yan)，智能手機細分市(shi)場占比(bi)最(zui)(zui)大，在未(wei)來(lai)也將保持這一趨(qu)勢(shi)。但是，由于醫療(liao)等其他設備(bei)中對小(xiao)型GPU的(de)(de)需求不斷增加，預計未(wei)來(lai)的(de)(de)年(nian)復合增長率將最(zui)(zui)高。

按GPU的行(xing)業進行(xing)劃分(fen)，市(shi)場可細分(fen)為電子、IT與(yu)電信、國防與(yu)情(qing)報、媒體(ti)與(yu)娛樂、汽(qi)車、其他。由于GPU在設計(ji)和工程應用中的廣泛使用，預計(ji)汽(qi)車細分(fen)行(xing)業的年復合增(zeng)長率最高。

按GPU的地理區(qu)域劃(hua)分，市場(chang)可細分為北美(mei)、歐洲(zhou)、亞太(tai)(tai)和其他(ta)地區(qu)。亞太(tai)(tai)地區(qu)在2019年主(zhu)(zhu)導(dao)了全球GPU市場(chang)，預計(ji)在整個預測期(qi)內將保(bao)持主(zhu)(zhu)導(dao)地位。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲全球GPU市場規模預測(ce)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2015-2025全球前三GPU供應商營收總和(he)

全球GPU已經進入了寡頭壟斷的格局。在傳統GPU市場中，排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業收入。英偉達的收入占56%、AMD占26%、英特爾占18%。

在(zai)手機(ji)和平板(ban)(ban)GPU方面，聯發科、海思麒(qi)麟、三星(xing)Exynos的(de)GPU設(she)計主要基于公(gong)版ARM MaliGPU或(huo)PowerVR微(wei)架構。高通(tong)驍龍Adreno和蘋(pin)果A系列采用自研GPU微(wei)架構。2019Q2，ARM、高通(tong)、蘋(pin)果、Imagination科技(ji)、英特爾是全球智能手機(ji)和平板(ban)(ban)的(de)前(qian)五大(da)GPU供應商。同期ARM Mali在(zai)以上五大(da)GPU供應商中占(zhan)43%的(de)市場份(fen)(fen)額(e)，高通(tong)Adreno占(zhan)36%的(de)份(fen)(fen)額(e)，蘋(pin)果占(zhan)12%的(de)份(fen)(fen)額(e)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019前三家GPU供應商收(shou)入份(fen)額對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019 Q2手機(ji)和平板GPU供應商份額

1、英偉達

英偉(wei)(wei)達公(gong)司成立于1993年，于1999年率先推(tui)出“GPU”的(de)圖(tu)形(xing)解決方案(an)。公(gong)司主(zhu)(zhu)要(yao)設計(ji)游(you)戲和專業(ye)市(shi)場(chang)的(de)GPU，移(yi)動計(ji)算(suan)和自動駕駛汽車的(de)SoC，是GPU計(ji)算(suan)領域公(gong)認的(de)全球領導者。它主(zhu)(zhu)要(yao)的(de)GPU產線“GeForce”和AMD的(de)“Radeon”形(xing)成直接競爭。同時，英偉(wei)(wei)達為了(le)拓展移(yi)動游(you)戲平(ping)臺(tai)(tai)，推(tui)出了(le)掌(zhang)機(ji)Shield、Shield平(ping)板(ban)、Shield電視盒子和云游(you)戲服(fu)務(wu)GeForce Now。目前，公(gong)司已經完成了(le)由芯(xin)片供應商向計(ji)算(suan)平(ping)臺(tai)(tai)的(de)轉型。

英偉達(da)的四大(da)增長驅動(dong)力(li)分別是(shi)游戲業務(wu)(wu)、數據中心業務(wu)(wu)、專業視覺(jue)業務(wu)(wu)、自動(dong)駕駛(shi)業務(wu)(wu)，各業務(wu)(wu)的代表性GPU方案(an)分別是(shi)GeForce，DGX、EGX、HGX，Quadro、AGX。

英偉(wei)達(da)2021財年(nian)(nian)營收167億美元，其中游戲(xi)、數據中心(xin)、專業(ye)視覺(jue)、自(zi)動駕駛業(ye)務(wu)在2020財年(nian)(nian)分別貢獻了營收的(de)47%、40%、6%、3%。公司(si)繼2014年(nian)(nian)毛(mao)利(li)率突破50%后(hou)，于2021財年(nian)(nian)毛(mao)利(li)率突破60%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達2021財年的(de)業務構成

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達的(de)主(zhu)要增長驅動力

英(ying)偉達(da)(da)的(de)游(you)(you)(you)(you)戲(xi)業務由(you)GeForce和Shield組成。其(qi)中(zhong)Shield面向(xiang)移動端和云(yun)，GeForce面向(xiang)PC。游(you)(you)(you)(you)戲(xi)筆記本和云(yun)游(you)(you)(you)(you)戲(xi)是(shi)公(gong)司拓(tuo)展市場的(de)2大(da)方向(xiang)。GeForce是(shi)英(ying)偉達(da)(da)游(you)(you)(you)(you)戲(xi)業務的(de)核心。GeForce是(shi)全球最大(da)的(de)游(you)(you)(you)(you)戲(xi)平臺，擁有超過2億名玩(wan)家(jia)。在PC游(you)(you)(you)(you)戲(xi)領(ling)域，英(ying)偉達(da)(da)的(de)營收是(shi)其(qi)他主(zhu)要GPU供應(ying)商(shang)的(de)三(san)倍多。GeForce已(yi)經來到了RTX30系列，采用(yong)第二代NVIDIA RTX架構-NVIDIA安培架構，搭載全新的(de)RT Core、Tensor Core及流(liu)式(shi)多處理器，擁有RTX游(you)(you)(you)(you)戲(xi)、DLSS、G-SYNC、DirectX12等(deng)先進技(ji)術，可(ke)帶來逼真的(de)光線(xian)追蹤效果和先進的(de)AI性能。

除(chu)了PC游(you)戲(xi)(xi)市場，英偉(wei)達也向合作(zuo)(zuo)伙(huo)伴–任(ren)天堂Switch主(zhu)(zhu)機(ji)提供定制版(ban)Tegra SoC。作(zuo)(zuo)為合作(zuo)(zuo)的一部分，Shield主(zhu)(zhu)機(ji)可以暢享任(ren)天堂的游(you)戲(xi)(xi)，GameStream串流游(you)戲(xi)(xi)和熱門游(you)戲(xi)(xi)，實現(xian)4KHDR畫質，支持百度DuerOS對話式人工(gong)智能。

英(ying)(ying)偉(wei)達的數據中(zhong)心(xin)業務的技術根源是(shi)CUDA（統(tong)一計算設(she)備架構）。CUDA首次推出于2006年的G80核心(xin)，隸屬(shu)于通用(yong)并行(xing)計算架構，創造了(le)GPGPU。在“安培”時代(dai)，CUDA核心(xin)已經進化到了(le)8.0，被運用(yong)在幾乎所有(you)的英(ying)(ying)偉(wei)達產(chan)品(pin)線。

CUDA兼容DirectCompute、OpenCL等計算接口。與Direct3D、OpenGL等高級圖形(xing)API相(xiang)比，CUDA可以使開發(fa)者更容易(yi)使用GPU資(zi)源。當前，CUDA在廣義上既代(dai)表GPU的硬件平臺(tai)又代(dai)表GPU的軟件平臺(tai)。

在硬件平(ping)臺方面，CUDA包含了CUDA指令(ling)集以(yi)及(ji)GPU內(nei)部的并(bing)行計算(suan)引擎。GPU平(ping)臺的矢量運算(suan)如INT、FP32、FP64都由CUDA承擔。開發(fa)人員可以(yi)使用C語言和Fortran語言為(wei)CUDA編寫程(cheng)序。

在軟(ruan)件(jian)平臺方面(mian)，基于CUDA的CUDA-X加速庫、工具(ju)和(he)(he)(he)科技集合，向(xiang)上對接(jie)不同(tong)的行(xing)業應用需求。在英偉(wei)達的軟(ruan)件(jian)棧(zhan)體系中(zhong)，分為CUDA-X AI和(he)(he)(he)CUDA-X HPC，分別面(mian)向(xiang)AI和(he)(he)(he)HPC兩(liang)大領域(yu)，可以(yi)在人(ren)工智能(neng)和(he)(he)(he)高性能(neng)計算方面(mian)提(ti)供遠超其他競(jing)品的性能(neng)。CUDA-X的開發者已經超過100萬。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達(da)CUDA-X HPC

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英(ying)偉達CUDA-X AI

英偉達數(shu)據中心的產品包括(kuo)適(shi)用于(yu)AI的DGX系統，適(shi)用于(yu)邊緣計算的EGX平臺(tai)，適(shi)用于(yu)超算的HGX平臺(tai)、適(shi)用于(yu)數(shu)據處理的DPU、簡(jian)化深度學(xue)(xue)習，機器學(xue)(xue)習，高性(xing)能(neng)計算的NGC目錄。相關的GPU加速器有(you)采用安培(pei)架構的A100、A40，采用圖靈架構的T4、RTX6000、RTX8000，采用伏(fu)特架構的V100。

過去5個財(cai)年(nian)中(zhong)(zhong)，英偉達(da)數據中(zhong)(zhong)心的營收從8.3億美(mei)(mei)元上升至(zhi)66.96億美(mei)(mei)元，年(nian)復合增速(su)69%。同(tong)時(shi)，公司的注冊開發者超過200萬，與主(zhu)要的云供應(ying)商如谷歌(ge)、騰訊、阿里建立了(le)供應(ying)關(guan)系，世界500強超算中(zhong)(zhong)的份額從6%上升至(zhi)70%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達主要云合作伙伴

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達數據中心營(ying)收趨勢

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達在超(chao)算500強中份額

英(ying)(ying)偉達(da)專(zhuan)業(ye)視覺業(ye)務主要由Quadro產品線組成。Quadro在(zai)(zai)GeForce的基礎上加強了NVLink、GPU的通用(yong)(yong)計算性能和(he)顯存容量，擁有(you)Iray、Omniverse平臺、材質定(ding)義語(yu)言(yan)等特(te)有(you)技術。Quadro被(bei)廣(guang)泛應用(yong)(yong)在(zai)(zai)臺式工作(zuo)站、筆記本電腦、EGX服務器、虛(xu)擬(ni)工作(zuo)空間、云端、定(ding)制(zhi)化方(fang)案(an)中。英(ying)(ying)偉達(da)Quadro方(fang)案(an)有(you)超過(guo)50種(zhong)應用(yong)(yong)、4000萬設(she)計用(yong)(yong)戶(hu)和(he)2000萬企業(ye)用(yong)(yong)戶(hu)，并正在(zai)(zai)不斷解鎖新市場(chang)。

在過去的(de)5個財年，英(ying)偉(wei)達專(zhuan)業視(shi)覺的(de)營收從8.35億(yi)美(mei)元(yuan)上升至(zhi)10.53億(yi)美(mei)元(yuan)，年復(fu)合增(zeng)速6%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達專業視覺GPU加速合作伙伴

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達專業視(shi)覺營收(shou)趨勢

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達專業視覺方案

英偉達的汽車產品包括相關駕駛軟件、駕駛基礎設(she)計(ji)、AGX平臺(tai)，提供訓(xun)練、模擬(ni)、智能駕駛艙體(ti)驗、高清(qing)地圖和定位等解決方案。在絕(jue)對(dui)性(xing)能方面，搭載4顆Drive AGX Origin的蔚來ADAM超(chao)算(suan)平臺(tai)支持L4以(yi)上自動駕駛，超(chao)過7個特斯拉(la)FSD算(suan)力總和。

不同(tong)于特斯拉自動駕(jia)駛追(zhui)求軟硬件(jian)的高度契合，英偉達的方案更追(zhui)求開放性。公司(si)在汽車領域的合作(zuo)伙(huo)伴以軟件(jian)服(fu)務(wu)和轎車居多，分(fen)別達到了(le)(le)76家(jia)和42家(jia)。同(tong)時，公司(si)與大眾(zhong)、豐田、本田、奔(ben)馳(chi)、寶(bao)馬、奧(ao)迪、沃爾沃、馬牌、滴滴、采埃孚(fu)、蔚(yu)來、小(xiao)鵬、圖森等世界知名公司(si)建(jian)立了(le)(le)強力(li)的生態。

在過去的5個財年，英(ying)偉達自動駕駛的營(ying)收從4.87億(yi)美(mei)元(yuan)上升至5.36億(yi)美(mei)元(yuan)，年復合增速3%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達自動(dong)駕駛營收(shou)趨勢

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達(da)自(zi)動(dong)駕駛(shi)合作(zuo)伙伴(ban)分布數(shu)

2020年9月13日(ri)，NVIDIA宣布以(yi)(yi)400億美元收購(gou)ARM。本次收購(gou)意義可以(yi)(yi)細分為以(yi)(yi)下(xia)5個方面(mian)：

1. 創造AI時代的世界級計算公司，將(jiang)英偉達領先的AI計算平臺和ARM龐(pang)大(da)的CPU生態相結合；

2. 通過英偉達在移動端和(he)PC等大型(xing)終(zhong)端市場的科技拓展ARM的IP授權組合；

3. 加(jia)速(su)ARM的服(fu)務器CPU、數據中心、邊(bian)緣AI、IoT發展；

4. 將英偉達計算平臺(tai)的開發(fa)者(zhe)由200萬提(ti)升(sheng)至(zhi)超過1500萬；

5. 并(bing)購可以立即增(zeng)加英偉達的非(fei)(fei)GAAP毛利率和非(fei)(fei)GAAP每股收益；

合并后的英偉達將(jiang)把計算(suan)從云、智能手機、PC、自動(dong)駕駛車和機器人技術推進(jin)到(dao)了邊緣物(wu)聯網(wang)，將(jiang)AI計算(suan)拓展到(dao)全球，在拓展大規(gui)模、高增長市場的同時加速創新。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達從云到邊緣

2、全球GPU先驅：AMD

AMD是全球唯(wei)一可(ke)以同(tong)時提供高性(xing)能GPU和CPU的(de)企業。AMD的(de)顯卡來源于(yu)2006年(nian)并購的(de)ATI科技。在這之(zhi)后的(de)4年(nian)中，AMD繼續使用ATI作為顯卡品牌。直到2010年(nian)，AMD才拋棄原ATI的(de)品牌命(ming)名(ming)方(fang)式(shi)。

目前，AMD同時提供獨(du)立GPU和集成GPU，其(qi)集成GPU主(zhu)要(yao)運用(yong)在Ryzen APU、嵌(qian)入式、半定制平臺(tai)中，獨(du)立GPU分為(wei)Radeon和Instinct系(xi)列，主(zhu)要(yao)用(yong)于游戲(xi)、專(zhuan)業視覺(jue)、服務器等(deng)應用(yong)。

過去六年，AMD的計算和(he)圖形(xing)收入的營收由18.05億(yi)美元(yuan)(yuan)上升至64.32億(yi)美元(yuan)(yuan)，年復合增速29%。

未來五年(nian)，AMD計劃成為高性(xing)能計算的(de)領導者，提供顛覆性(xing)的(de)CPU和GPU方案(an)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD計算和(he)圖形(xing)部門營收

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD GPU的(de)聚焦領(ling)域

AMD的(de)(de)集成GPU主(zhu)要(yao)被運(yun)用在(zai)臺(tai)式(shi)(shi)機和筆(bi)(bi)記本(ben)的(de)(de)APU產(chan)品中，和CPU組成異(yi)構運(yun)算(suan)單(dan)元(yuan)。臺(tai)式(shi)(shi)和筆(bi)(bi)記本(ben)APU的(de)(de)GPU部(bu)份(fen)共(gong)用微架構和核心技(ji)術，二者GPU的(de)(de)主(zhu)要(yao)差異(yi)在(zai)于TDP和處(chu)理單(dan)元(yuan)的(de)(de)數量，臺(tai)式(shi)(shi)強于筆(bi)(bi)記本(ben)。

“Renior”APU的(de)GPU繼續(xu)使用(yong)Vega微架構(gou)，但受益于7納(na)米制程，每個(ge)處理單元效(xiao)能顯著提升。

7納米Vega的(de)提(ti)(ti)升(sheng)包括：數據網絡翻倍、優化低功耗狀態轉換、25%主(zhu)頻(pin)提(ti)(ti)升(sheng)、77%存儲位(wei)(wei)寬(kuan)提(ti)(ti)升(sheng)。這(zhe)些提(ti)(ti)升(sheng)帶來了在保持15W功耗不變的(de)前提(ti)(ti)下，每個計算單元59%的(de)性能提(ti)(ti)升(sheng)、1.79TFLOPS的(de)32位(wei)(wei)浮點(dian)峰(feng)值吞吐(tu)。

在3DMark Time Spy（DX12）的(de)(de)(de)跑(pao)分中，7納(na)米的(de)(de)(de)Ryzen 4800U的(de)(de)(de)GPU表現超過10納(na)米i7-1065G7，是14納(na)米i7-10710U的(de)(de)(de)2倍以上。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU內(nei)核解析

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU跑分對比

AMD的Radeon系(xi)列(lie)游戲獨(du)立(li)GPU按微架(jia)構推出時(shi)間(jian)依(yi)次遞減可以分(fen)為(wei)RX6000系(xi)列(lie)、RX5000系(xi)列(lie)、Radeon 7、 RX500系(xi)列(lie)。以上四(si)大(da)系(xi)列(lie)中，除RX500系(xi)列(lie)外均采用臺積電(dian)7納米制程。

2020年11月推出(chu)的(de)(de)(de)RDNA2微架構相較于(yu)前(qian)代RDNA絕對性能最高(gao)提升一倍，能效提高(gao)54%，支持(chi)DirectX12 Ultimate，硬件(jian)光線追蹤(zong)和可變速率著色器等先(xian)進(jin)技術(shu)。搭(da)載16GBGDDR6顯存和128MB InfinityCache高(gao)速緩存的(de)(de)(de)RX 6900XT的(de)(de)(de)游戲性能接近英偉達(da)的(de)(de)(de)RTX 3090。

為了發揮AMD CPU和GPU的協同效應，Radeon擁有AMD SmartAccess Memory技術，銳龍CPU和顯(xian)卡之間能(neng)實現更出色的通(tong)信(xin)。RX6800系列顯(xian)卡在部分游(you)戲中4K畫質(zhi)性(xing)能(neng)額外提升最高可達7%。

2022年(nian)前，AMD將基(ji)于更(geng)先進的制(zhi)程打造RDNA3微(wei)架構，進一步強化光追等(deng)計算表現(xian)。

除了(le)傳統的(de)BGA顯存封裝，AMD還積極運(yun)用HBM系(xi)列(lie)顯存。在Radeon7中，16GB的(de)HBM2顯存擁有1TB/S的(de)帶寬，超過同期Titan RTX 50%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD獨立游(you)戲GPU路線圖(tu)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD獨立游戲(xi)GPU產品線(xian)

AMD的(de)數據(ju)中心(xin)GPU業(ye)務由Radeon Instinct加速器系(xi)列(lie)、以客戶為核心(xin)的(de)數據(ju)中心(xin)解決(jue)方案和(he)ROCm組成。AMD的(de)主要(yao)合(he)作伙(huo)伴包括戴爾、惠普等OEM，同時(shi)AMD也(ye)向(xiang)微軟AZURE和(he)亞馬遜網絡服(fu)務提供視覺云解決(jue)方案。

ROCm是(shi)全(quan)球首個針對(dui)加(jia)速(su)式計算(suan)且不限定(ding)編程語言的超大規模(mo)開源平臺，遵循(xun)UNIX的選擇哲學、極簡主義(yi)以及針對(dui)GPU計算(suan)的模(mo)塊化軟件開發。

ROCm適合大規模計算，支持多路GPU，有豐富的系(xi)統運行庫，包(bao)括框架、庫、編(bian)程模型、互聯和(he)Linux Kernel上游(you)支持，提供各種(zhong)重要功能(neng)來支持大規模應用、編(bian)譯(yi)器和(he)語言運行庫的開發。

AMD正與美國能(neng)源部、橡(xiang)樹(shu)嶺(ling)國家實驗(yan)室和(he)Cray公司(si)合作，使(shi)用(yong)EPYC（霄龍）CPU、Radeon Instinct GPU和(he)ROCm打(da)造超過150億億次FLOPS的全球最快超算平(ping)臺。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD ROCm開源(yuan)軟件生態

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD數據中心GPU產品線(xian)

Radeon Instinct MI 100加速器采(cai)用專注計(ji)算的CDNA微架構，在計(ji)算和連接方面(mian)實(shi)現了巨大(da)飛躍，與AMD上一代加速器相比，高性能(neng)(neng)計(ji)算工作負載（FP32矩陣(zhen)）性能(neng)(neng)提升(sheng)(sheng)近3.5倍(bei)，而人工智(zhi)能(neng)(neng)工作負載（FP16）性能(neng)(neng)提升(sheng)(sheng)近7倍(bei)。InstinctMI 100在FP32和FP64的峰值(zhi)TFLOPS中超越了同(tong)期英(ying)偉達安培A100，同(tong)時(shi)功耗比后者(zhe)低100瓦。

為(wei)了滿足多路(lu)GPU的(de)互聯通訊需求，AMD研發了InfinityFabric技術。Infinity Fabric擁有(you)先進(jin)的(de)平臺連接性和(he)可拓展(zhan)性，最多支持(chi)4路(lu)GPU互聯。P2P帶寬是PCIe 4.0的(de)2倍(bei)，四GPU集群的(de)P2P帶寬最高可達552GB/s。

未來，AMD將基于(yu)更先進的(de)制程打造CDNA2微架構，進入百億(yi)億(yi)級時(shi)代。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Instinct MI 100與安培A100對(dui)比(bi)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD數(shu)據中心GPU路線圖

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD Infinity Fabric互聯

AMD的其他獨立(li)GPU主要包括嵌入(ru)式(shi)、半(ban)定(ding)制(zhi)化、Radeon Pro工作站顯卡(ka)。半(ban)定(ding)制(zhi)化獨立(li)顯卡(ka)主要倍運用(yong)在索尼、微(wei)軟的本(ben)世代(dai)和次(ci)世代(dai)主機(ji)中。如今，AMD的技術存在于2.2億個家庭(ting)暢享游戲(xi)和視頻娛樂時所用(yong)設備的核心。

嵌(qian)入(ru)式(shi)GPU的(de)特點包括(kuo)卓越的(de)圖(tu)形性(xing)(xing)能、多屏顯示、外形緊湊(cou)、高(gao)(gao)能效(xiao)、長(chang)期供貨。嵌(qian)入(ru)式(shi)GPU分為超高(gao)(gao)性(xing)(xing)能嵌(qian)入(ru)式(shi)GPU、高(gao)(gao)性(xing)(xing)能嵌(qian)入(ru)式(shi)GPU、高(gao)(gao)能效(xiao)嵌(qian)入(ru)式(shi)GPU，它們主要使(shi)用14納米的(de)GCN 1.4北極星微架構，TDP覆蓋20W-135W范(fan)圍。

Radeon Pro系列顯(xian)卡被廣(guang)泛(fan)應用(yong)于建筑工(gong)程、設(she)計(ji)制造、媒體娛樂等領域，擁(yong)有AMD遠程工(gong)作站(zhan)、AMD Eyefinity多屏顯(xian)示(shi)技術、AMD Radeon ProRender等技術。Radeon Pro系列采用(yong)Vega微架構，7或14納米(mi)制程，直接競爭(zheng)對手(shou)是英偉達(da)的(de)Quadro系列。Radeon Pro移(yi)動和(he)臺(tai)式工(gong)作站(zhan)的(de)合作伙伴包括(kuo)蘋果(guo)、戴爾、惠(hui)普等。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Radeon? Pro VII GPU規格

3、英特爾：全球GPU追趕者

英特爾(er)是全球(qiu)最大的(de)PC GPU供應商，也是PC和服務器(qi)顯卡唯一的(de)IDM廠商。英特爾(er)的(de)GPU最早可以追(zhui)溯到(dao)1998年(nian)的(de)i740，但是由于羸弱的(de)性能和緩慢的(de)更新(xin)速度，一直沒有非(fei)常大的(de)起色(se)。進(jin)入Core i時代后，英特爾(er)通過(guo)(guo)將核芯(xin)顯卡和CPU進(jin)行捆綁銷售，利用(yong)CPU的(de)龐大市場份額，確(que)立了公司在集(ji)成GPU領域的(de)寡(gua)頭壟(long)斷地位，在此過(guo)(guo)程中AMD的(de)APU一直是酷睿的(de)直接競爭對手。

2020年，英特爾推出了第12代GPGPU，采用全新的Xe微架(jia)構和(he)10納米Super Fin制(zhi)程。相(xiang)較(jiao)于第11代核顯(xian)，Xe-LP在(zai)保持電(dian)壓(ya)不變的前提下，大幅提升主頻，能(neng)效顯(xian)著提高(gao)。搭(da)載Xe-LP的i7 1185G7在(zai)GPU性能(neng)方面已(yi)經(jing)超過同(tong)期(qi)AMD的Vega核顯(xian)和(he)英偉達的MX系列(lie)獨(du)顯(xian)。

Xe系列(lie)可以(yi)細分為，集(ji)成/低功耗的Xe-LP、娛樂/游戲(xi)的Xe-HPG、數據中心(xin)/高性能的Xe-HP、高性能計算的Xe-HPC。

目前，Xe-LP的(de)集(ji)成版本(ben)已(yi)經被(bei)第11代酷睿所(suo)采用。Xe-LP的(de)移(yi)動獨立GPU版本(ben)DG1和服務(wu)器(qi)獨立GPU版本(ben)SG1也已(yi)發(fa)布。獨顯(xian)版在(zai)核(he)顯(xian)版的(de)基礎(chu)上(shang)進(jin)一步提升主頻(pin)，并(bing)加入了(le)128位4GB LPDDR4X-4266獨立顯(xian)存，單精(jing)度浮點算力(li)提升15%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Xe縱向對(dui)比(bi)第11代(dai)核顯

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Xe產品線

英(ying)特爾的集成GPU在形式(shi)上表現(xian)為核(he)(he)芯顯(xian)卡。核(he)(he)芯顯(xian)卡使用系統DRAM作為非獨立顯(xian)存，通過處(chu)理(li)器內部(bu)的環狀(zhuang)總線與(yu)CPU連接，負(fu)責處(chu)理(li)游戲(xi)、視(shi)頻娛樂等圖(tu)像負(fu)載(zai)。

英特(te)爾Xe核顯(xian)借助10納米(mi)SuperFin的優(you)勢，將處理單元最(zui)高(gao)提(ti)(ti)升(sheng)(sheng)至96個，相較(jiao)于Icelake的64個提(ti)(ti)升(sheng)(sheng)了(le)50%，并且(qie)將連接(jie)CPU和GPU的總(zong)線帶(dai)寬(kuan)提(ti)(ti)升(sheng)(sheng)一(yi)倍(bei)，獨(du)立最(zui)終緩(huan)存(cun)（LLC）提(ti)(ti)高(gao)50%，支持最(zui)高(gao)86GB/s的存(cun)儲帶(dai)寬(kuan)。以(yi)上(shang)這些提(ti)(ti)升(sheng)(sheng)使(shi)i7-1185G7的3DMark跑分(fen)較(jiao)前代i7-1065G7提(ti)(ti)升(sheng)(sheng)接(jie)近一(yi)倍(bei)，超(chao)過AMD的R74800U和同期英偉達的MX350。

Xe核顯(xian)的顯(xian)示引擎(qing)和媒體引擎(qing)也都(dou)得到加(jia)強。接口(kou)方面(mian)，內部支(zhi)持雙eDP，外部支(zhi)持DP1.4、HDMI2.0、雷(lei)電(dian)4、USB4 Type-C。畫質方面(mian)，支(zhi)持8K、HDR10、12比特BT2020色域、360赫茲刷(shua)新率(lv)等。

英(ying)特爾(er)(er)Xe核心顯卡(ka)和(he)(he)CPU經(jing)由自家One API驅動中間層框(kuang)架和(he)(he)上層應(ying)用。英(ying)特爾(er)(er)One API解決了編(bian)碼(ma)模(mo)型在不同微(wei)架構間的壁壘，最大化(hua)跨平臺表現和(he)(he)最小化(hua)開發成本(ben)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾(er)Tiger Lake 實(shi)物(wu)圖和(he)Die

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Tiger Lake Xe核顯(xian)3DMark性能對比

英特(te)爾獨立GPU分為銳炬Xe MAX和(he)服務器GPU，均隸屬(shu)于Xe LP系列，微架構與核(he)顯Xe相同，采用標準(zhun)封裝和(he)10納米SuperFin制(zhi)程。

目前，銳(rui)炬(ju)(ju)Xe MAX是第一款(kuan)基(ji)于(yu)英(ying)特爾(er) Xe 架構的(de)面向輕薄型筆記本(ben)電腦(nao)的(de)GPU。銳(rui)炬(ju)(ju)Xe MAX在Xe集(ji)成GPU的(de)基(ji)礎上(shang)增加了4GBLPDDR4X-4266的(de)獨立顯存(cun)，TDP 25W，峰值主頻1650MHz，單精(jing)度(du)浮點(dian)性能2.46TFLOPs。銳(rui)炬(ju)(ju)Xe MAX可以和11代酷睿處(chu)理(li)器、銳(rui)炬(ju)(ju)Xe GPU同時工作。借(jie)助英(ying)特爾(er)Deep Link技術，獲得具有強大性能和經過功耗優化的(de)集(ji)成系統，以改進創造力(li)和游(you)戲體驗。

目前，英特爾服(fu)務器GPU在Xe核顯(xian)的基礎上(shang)，TDP提升到23W，增加了8GB LPDDR4的獨立顯(xian)存，支持高(gao)密度(du)、低延(yan)遲的安卓(zhuo)云(yun)游戲和高(gao)密度(du)媒體轉碼/編碼，以實(shi)現實(shi)時的OTT視頻直播。同(tong)時，英特爾服(fu)務器GPU支持2顆(ke)、4顆(ke)獨立GPU的聚(ju)合(he)，成(cheng)倍提高(gao)性(xing)能(neng)。

未來，英特爾(er)還將(jiang)推出面(mian)(mian)向游戲和(he)高性能桌面(mian)(mian)的Xe HPG產品線，增加了(le)光線追(zhui)蹤等硬件(jian)支持，采(cai)用(yong)傳統封裝，外包生(sheng)產。英特爾(er)服務器GPU將(jiang)使用(yong)Xe HPC、Xe HP微架構，采(cai)用(yong)2.5D和(he)3D先(xian)進(jin)封裝，10納米SuperFin及(ji)更先(xian)進(jin)自家或外包工藝。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Xe服務器GPU參數(shu)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Xe產品、封裝、制(zhi)程

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾銳炬Xe MAX

4、ARM Mali：全球GPU IP巨頭

ARM是全(quan)球最大(da)的(de)(de)半導體IP提(ti)供商。全(quan)世界(jie)超過(guo)95%的(de)(de)智能手機(ji)和平板(ban)電腦都采用ARM架(jia)構(gou)。2019Q2，全(quan)球近43%的(de)(de)手機(ji)和平板(ban)GPU由Mali驅動。2020第四(si)季度，ARM半導體合作伙(huo)伴基于ARM技術(shu)的(de)(de)芯(xin)片(pian)出貨量(liang)達(da)到67億顆(ke)，再創歷(li)史新高(gao)，超過(guo)其(qi)他所有流行的(de)(de)CPU指令集架(jia)構(gou)—X86、ARC、Power、MIPS的(de)(de)總和。

國產SoC中(zhong)，有95%是基(ji)于ARM處理器技(ji)術，ARM中(zhong)國授(shou)權客戶(hu)超(chao)(chao)過150家(jia)，基(ji)于ARM架構的國產芯(xin)片(pian)出貨量已經超(chao)(chao)過184億。

ARM的Mali GPU按性能(neng)可以分(fen)為3大類，分(fen)別(bie)是高(gao)性能(neng)、主流(liu)、高(gao)能(neng)效(xiao)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲ARM IP組合和SoC設計(ji)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲ARM Mali GPU路線圖

Arm Mali-G78 GPU是用于(yu)(yu)高(gao)(gao)端設備的第二代基(ji)于(yu)(yu)Valhall架構的GPU。Mali-G78是性能最(zui)高(gao)(gao)的ArmGPU，可支持(chi)復雜(za)的應用，例如適(shi)用于(yu)(yu)Vulkan和OpenCL等所(suo)有最(zui)新API的游(you)戲(xi)圖形(xing)和機(ji)器學習（ML）。

Mali-G78與上一(yi)代設(she)備相比(bi)，GPU性能(neng)(neng)提(ti)高(gao)了25％，并(bing)增強了設(she)備上的(de)(de)ML功能(neng)(neng)，從(cong)而有(you)助于將高(gao)度復雜的(de)(de)游戲帶入移動設(she)備。Mali-G78最多(duo)支(zhi)持(chi)24個(ge)(ge)內核，并(bing)包(bao)含異步(bu)頂級功能(neng)(neng)，可(ke)確保性能(neng)(neng)有(you)效地分布在各個(ge)(ge)內核上，從(cong)而使圖形運(yun)行(xing)更加流(liu)暢。全新(xin)執行(xing)引擎中的(de)(de)新(xin)型融合乘加（FMA）單元(yuan)可(ke)進(jin)一(yi)步(bu)降低30%的(de)(de)單元(yuan)能(neng)(neng)耗。

在GFXBench Aztec Ruin的(de)跑分中，使用臺(tai)積電(dian)5納米工藝，搭載(zai)24個Mali-G78內核(he)的(de)麒麟9000 SoCGPU的(de)幀數強于驍龍865的(de)Adreno 650，但仍(reng)落后于蘋果A14。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲ARM Mali-G78

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲麒麟(lin)9000系列的(de)ARM Mali-G78應(ying)用

Imagination Technologies是一家總部(bu)在英國，專注(zhu)于半導體和(he)(he)相關知識產權許可，銷(xiao)售PowerVR移動圖形處理器(qi)，MIPS嵌入式微(wei)處理器(qi)和(he)(he)消費電子產品(pin)。公(gong)(gong)司(si)還提供(gong)無線基帶處理，網絡，數(shu)字信號處理器(qi)，視頻(pin)和(he)(he)音頻(pin)硬件，IP語(yu)音軟件，云(yun)計(ji)算(suan)，以(yi)及芯片和(he)(he)系統設計(ji)服務(wu)。2017年，董事會(hui)宣布公(gong)(gong)司(si)被中資的Canyon Bridge收購。

Imagination在(zai)(zai)GPU領(ling)(ling)域(yu)(yu)歷史悠久，在(zai)(zai)其(qi)超過25年的歷史中，Imagination先后推出過多代GPU產品，已積累超過1500項GPU專(zhuan)利(li)，曾(ceng)為蘋果供(gong)應圖像處(chu)(chu)理器(qi)（GPU），在(zai)(zai)圖像處(chu)(chu)理器(qi)（GPU）領(ling)(ling)域(yu)(yu)與高(gao)通、ARM三分(fen)天(tian)下，曾(ceng)占(zhan)GPU市(shi)場大約占(zhan)據三分(fen)之一的份(fen)額，在(zai)(zai)汽(qi)車領(ling)(ling)域(yu)(yu)更(geng)是(shi)達(da)到43%。帶有Imagination IP的芯(xin)片(pian)產品累計出貨量已超過110億。

Imagination的IP包括圖(tu)形處理器和視覺與人工智(zhi)能(neng)2類。公司Power VR產(chan)品被廣泛應(ying)用(yong)于移動設備（智(zhi)能(neng)手機(ji)、平(ping)板）、汽車（儀(yi)表、信息娛樂、輔(fu)助駕駛）、沉浸(jin)式體驗（AR/VR）、消費電(dian)(dian)子（電(dian)(dian)視、機(ji)頂盒(he)）。

根據(ju)Imagination的(de)(de)GPU路線(xian)圖(tu)，在A系(xi)列(lie)GPU性能(neng)最高提(ti)升2.5倍之后，B系(xi)列(lie)到D系(xi)列(lie)GPU的(de)(de)年復(fu)合增(zeng)速在30%左右。2021年的(de)(de)C系(xi)列(lie)GPU將首次(ci)加入L4級別(bie)的(de)(de)光(guang)(guang)線(xian)追蹤(zong)，從硬件層面(mian)支持一(yi)致(zhi)性分類(lei)的(de)(de)層次(ci)包圍體（BVH）和復(fu)雜光(guang)(guang)線(xian)處理，相比目前(qian)英偉達和AMD的(de)(de)L3級別(bie)光(guang)(guang)線(xian)追蹤(zong)方案可顯著提(ti)升能(neng)效，實現(xian)更好的(de)(de)用戶體驗。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲IMG系(xi)列GPU路線圖

5、全球GPU IP巨頭：Imagination

2020年10月，Imagination推(tui)出了全(quan)新的(de)IMG B系(xi)列(lie)GPU，這(zhe)是公(gong)司第一個包含新多(duo)核(he)架(jia)構的(de)GPU IP系(xi)列(lie)，也是首次采用(yong)RISC-V，可提供(gong)最(zui)高的(de)性(xing)能(neng)密(mi)度。得益于多(duo)核(he)架(jia)構和Imagination圖像壓縮(suo)技(ji)（IMGIC），B系(xi)列(lie)相比A系(xi)列(lie)，功(gong)耗(hao)降低(di)30%，帶寬(kuan)降低(di)35%、面積縮(suo)減25%，AI算力達到(dao)24 TOPS，且填充率比競品IP內(nei)核(he)高2.5倍。與A系(xi)列(lie)相似，B系(xi)列(lie)GPU也支持AI協同(tong)技(ji)術，在提供(gong)圖形處理功(gong)能(neng)的(de)同(tong)時(shi)，可用(yong)備用(yong)資源來處理可編(bian)程AI等任務(wu)。

IMG B系(xi)(xi)列(lie)GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四(si)種系(xi)(xi)列(lie)。其中IMG BXE面(mian)向(xiang)高(gao)清(qing)顯示應用，IMG BXM主打圖形處(chu)理體驗，IMG BXT面(mian)向(xiang)高(gao)性能(neng)應用，IMG BXS面(mian)向(xiang)未來汽車(che)。

BXS系列符(fu)合ISO 26262標準，也是迄今為止所開發的最先(xian)進汽車GPU IP內核。BXS提供了(le)一個完(wan)整的產(chan)品(pin)系列，從入門到高端(duan)，可為下一代人機界(jie)面（HMI）、UI顯(xian)示(shi)、信息娛樂(le)系統(tong)、數字(zi)駕艙、環繞視圖提供解決方案。高計算能力的配置(zhi)可支持自動駕駛和ADAS。

憑借(jie)核(he)心可(ke)(ke)擴(kuo)展的優勢，IMG B系列(lie)適用于傳(chuan)統移動(dong)設(she)備、消費類(lei)設(she)備、物(wu)聯網(wang)、微控制器(qi)、數字電(dian)視(DTV)和汽車等市(shi)場領(ling)域。IMG B系列(lie)也(ye)可(ke)(ke)擴(kuo)展至桌面GPU、云端GPU服(fu)務器(qi)，且支持(chi)自動(dong)駕駛(shi)和輔(fu)助駕駛(shi)等。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲IMG B系列對比A系列能(neng)效(xiao)提升

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Imagination GPU組合

6、高通Adreno：全球移動GPU先驅

高通(tong)的(de)(de)自研GPU Adreno源(yuan)于收購的(de)(de)AMD移動GPU Imageon系(xi)列。早期(qi)的(de)(de)Adreno 100系(xi)列只有2D圖形加(jia)速和有限的(de)(de)多媒體功(gong)能。2008年發(fa)布的(de)(de)Adreno 200是首(shou)款(kuan)被集成(cheng)到驍龍SoC中的(de)(de)GPU，并加(jia)入了(le)3D硬件加(jia)速功(gong)能。

2020年(nian)12月，高通推出了(le)搭載Adreno 660的(de)驍(xiao)龍(long)888 SoC。Adreno 660繼承了(le)Adreno650的(de)微架構(gou)，采用了(le)三星5納米LPE工(gong)藝，大幅提高主頻(pin)，使圖形渲染性能(neng)提高35%，能(neng)效提高20%。Adreno 660全面支(zhi)持Qualcomm? Snapdragon Elite Gaming和(he)Qualcomm? Game Quick Touch ，二者將(jiang)可變速(su)率渲染和(he)響應(ying)速(su)度分別(bie)提升30%和(he)20%。

在GFXBench Aztec Ruin 1080P測試中，Adreno 660的峰值幀數追平(ping)麒麟9000，但相較蘋果A14仍有(you)近(jin)20%的差距。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲高通(tong)Adreno 660 1080P性(xing)能對比(bi)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲高通Adreno 660 GPU

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲高通Adreno 660參數

7、蘋果：全球移動GPU新秀

蘋(pin)(pin)果的自研(yan)GPU首(shou)次出現于2017年的A11 SoC。A11的三核(he)心(xin)GPU作為蘋(pin)(pin)果的首(shou)款自研(yan)GPU，其性能超過采用(yong)Power VR GT7600+的A10 GPU 30%。其后，所有的A系列(lie)SoC的GPU均為蘋(pin)(pin)果自研(yan)。

2020年(nian)，蘋果推出了5納米制程(cheng)的(de)(de)M1芯(xin)(xin)片，該款SoC基(ji)于(yu)A14芯(xin)(xin)片，在CPU、GPU、NPU、緩存(cun)等(deng)各方面都(dou)進行了強化，用于(yu)驅動(dong)蘋果的(de)(de)Mac產品。M1芯(xin)(xin)片的(de)(de)發(fa)布(bu)標志著蘋果繼2005年(nian)放(fang)棄IBM的(de)(de)PowerPC指(zhi)令集轉向Intel的(de)(de)X86指(zhi)令集后的(de)(de)又(you)一大PC領(ling)域轉換。

采(cai)用8核GPU的(de)(de)M1擁有128個(ge)執行(xing)單元，可以同(tong)(tong)步運(yun)行(xing)近(jin)25000個(ge)線程，單精度浮點算力達(da)到(dao)2.6 TFLOPs。M1 GPU的(de)(de)能效表現(xian)是當時同(tong)(tong)類PC中集成GPU的(de)(de)三倍，峰值性能最(zui)高可達(da)其他(ta)GPU的(de)(de)2倍。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲蘋果M1 GPU參(can)數(shu)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲蘋果M1能效對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲蘋果M1 8核GPU

三、國產GPU自主之路

國(guo)產(chan)GPU的發(fa)展(zhan)落(luo)后(hou)于(yu)國(guo)產(chan)CPU，直到(dao)2014年4月，景(jing)嘉微才成功研發(fa)出國(guo)內首款國(guo)產(chan)高性(xing)(xing)能、低(di)功耗GPU芯(xin)片—JM5400。在(zai)國(guo)產(chan)GPU的開發(fa)中(zhong)，GPU對CPU的依賴性(xing)(xing)和(he)GPU的高研發(fa)難度，阻礙了該產(chan)業的快速發(fa)展(zhan)。

首先，GPU對CPU有依賴性。GPU結(jie)構沒有控制器，必須(xu)由CPU進行控制調用才能工作(zuo)，否則GPU無法(fa)單(dan)獨(du)工作(zuo)。所(suo)以國(guo)產CPU較(jiao)國(guo)產GPU先行一(yi)步是符(fu)合芯片產業發展邏輯的。

再者(zhe)，GPU技術難(nan)度(du)很高。Moor Insights & Strategy首(shou)席(xi)分析師(shi)莫海德曾表(biao)示(shi)：“相比CPU，開(kai)發GPU要(yao)更加(jia)困難(nan)，而(er)GPU設(she)計(ji)師(shi)、工程(cheng)師(shi)和驅(qu)動程(cheng)序的作者(zhe)都要(yao)更少(shao)(shao)。”國內(nei)人才缺(que)口也是(shi)國產GPU發展緩慢的重要(yao)原因之(zhi)一。在(zai)芯(xin)片(pian)行業，一般來說，培養(yang)一位擁有豐富經(jing)驗并且能夠根據市場動態及時修改芯(xin)片(pian)設(she)計(ji)方(fang)案的成熟工程(cheng)師(shi)，至少(shao)(shao)需要(yao)10年。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲國產GPU公司及其業務(wu)簡介

中(zhong)國GPU市場規模和潛力非(fei)常大(da)，龐大(da)的整(zheng)機(ji)制造能力意味著(zhu)巨(ju)量(liang)的GPU采購。雖(sui)然近(jin)些年(nian)，計算(suan)機(ji)整(zheng)機(ji)和智能手機(ji)產量(liang)增長都出現瓶頸，但由于這兩類(lei)產品體量(liang)龐大(da)，2019年(nian)國內(nei)智能手機(ji)出貨量(liang)為3.72億部，電子計算(suan)機(ji)整(zheng)機(ji)年(nian)產量(liang)達到3.56億臺，GPU的需求量(liang)大(da)且單(dan)品價(jia)值非(fei)常高(gao)，市場規模依然非(fei)常可觀。

同時，服務器(qi)GPU伴隨著整(zheng)機出(chu)貨(huo)的快速(su)(su)成長(chang)，需求量(liang)(liang)增(zeng)(zeng)長(chang)也(ye)較為迅速(su)(su)。據統(tong)計，2018年國(guo)(guo)內(nei)服務器(qi)出(chu)貨(huo)量(liang)(liang)達到330.4萬臺(tai)，同比增(zeng)(zeng)長(chang)26%，其中互聯網、電信、金融和(he)服務業(ye)等(deng)行業(ye)的出(chu)貨(huo)量(liang)(liang)增(zeng)(zeng)速(su)(su)也(ye)均(jun)超過20%。另外，國(guo)(guo)內(nei)在物聯網、車(che)聯網、人工智(zhi)能等(deng)新興計算(suan)領域(yu)，對GPU也(ye)存(cun)在海量(liang)(liang)的需求。

據統(tong)計，近(jin)年(nian)來中國(guo)集成電路自(zi)給率不斷提升，2018年(nian)為(wei)13%，預計2020年(nian)有望提升至15%，但仍然處于較低水平。根據國(guo)務院印發(fa)的(de)《新時期促進(jin)集成電路產(chan)(chan)業(ye)(ye)和軟件(jian)產(chan)(chan)業(ye)(ye)高質(zhi)量發(fa)展的(de)若干(gan)政策》等(deng)文件(jian)，中國(guo)芯(xin)片自(zi)給率要在2025年(nian)達(da)到70%，這將產(chan)(chan)生8000億元(yuan)的(de)國(guo)產(chan)(chan)芯(xin)片需(xu)求。中國(guo)芯(xin)片產(chan)(chan)業(ye)(ye)發(fa)展空(kong)間非常大。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019年中國大陸集成電路(lu)進口(kou)額結構

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2012-2020年中國(guo)大陸集成(cheng)電(dian)路(lu)自給率

1、景嘉微：具有完全自主知識產權，打破國外GPU長期壟斷

長(chang)沙景嘉微電子(zi)股份有(you)限公司成立于(yu)2006年(nian)4月，位于(yu)長(chang)沙市高(gao)新技術開發(fa)區，公司擁有(you)經(jing)驗(yan)豐(feng)富的(de)集成電路(lu)設(she)計團隊，是(shi)國產GPU的(de)主要參與者，也(ye)是(shi)唯一自主開發(fa)并已經(jing)大規模商用的(de)企業(ye)。

2014年4月，成(cheng)功研發出國(guo)內(nei)首款國(guo)產高(gao)可靠、低功耗GPU芯片-JM5400，具(ju)有完全自(zi)主知(zhi)識產權，打破(po)了國(guo)外產品(pin)長期(qi)壟(long)斷我國(guo)GPU市場的局面，在(zai)多個國(guo)家重(zhong)點項目中得到了成(cheng)功的應用；

2018年8月，公(gong)司自主研發的新一代高性(xing)能、高可靠(kao)GPU芯片-JM7200流(liu)片成(cheng)功，將國產GPU的技(ji)術發展提高到新的水平，可為各類(lei)信息(xi)系統提供強(qiang)大的顯示(shi)能力；

2019年，公司在JM7200基礎上(shang)，推(tui)出了商(shang)用版本-JM7201，滿足桌面(mian)系統高性(xing)能顯示(shi)需求，并全面(mian)支持國產(chan)CPU和國產(chan)操作(zuo)系統，推(tui)動(dong)國產(chan)計(ji)算機(ji)的生態構建和進一(yi)步完善。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲景嘉微發展歷程

景嘉(jia)(jia)微已完(wan)成(cheng)兩個系(xi)列、三款GPU的量產應(ying)用(yong)，產品覆(fu)蓋軍用(yong)和(he)民(min)用(yong)兩大(da)市場(chang)(chang)。景嘉(jia)(jia)微第一代GPU JM5400主要運(yun)用(yong)于(yu)軍用(yong)市場(chang)(chang)，替代原ATI M9、M54、M72等美系(xi)GPU芯(xin)片(pian)。景嘉(jia)(jia)微第二(er)代GPU JM7200在產品性(xing)能(neng)和(he)工藝設計上較JM5400有較大(da)提升，是首(shou)例進(jin)入民(min)用(yong)市場(chang)(chang)的圖形(xing)芯(xin)片(pian)。公(gong)司(si)與國內主要CPU廠(chang)商(shang)和(he)計算機(ji)整機(ji)廠(chang)商(shang)已建立合作關系(xi)。JM7201在JM7200的基礎上對民(min)用(yong)市場(chang)(chang)的桌面應(ying)用(yong)進(jin)行了(le)優化(hua)，推出標準MXM和(he)標準PCIE顯(xian)卡，在保證性(xing)能(neng)的同時，降(jiang)低(di)了(le)功耗(hao)，縮小了(le)體積。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲景嘉微國產GPU芯片產品線

景嘉微的(de)第二代(dai)(dai)GPU JM7200系(xi)列于2018年8月(yue)流片成功，并在2019年3月(yue)獲得首個訂單。相較于前代(dai)(dai)JM5400，JM7200在理論性(xing)能(neng)上有翻倍的(de)提升，同時制(zhi)程(cheng)也進化到了28納米(mi)。但是JM7200在顯存帶(dai)寬、像素填充率、浮點性(xing)能(neng)等方面較2012年發(fa)售，采用完整(zheng)版(ban)GK107核心的(de)英偉達GT640還(huan)有相當差距。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲各景嘉微GPU參(can)數(shu)對(dui)比

2018年(nian)12月，景嘉微定增(zeng)募集10.88億元，用(yong)于(yu)高(gao)性能(neng)通用(yong)圖形處理(li)器和面向(xiang)消費電(dian)子領域(yu)的通用(yong)類芯片(pian)研發和產業化(hua)項(xiang)目(mu)。其中，高(gao)性能(neng)通用(yong)圖形處理(li)器項(xiang)目(mu)包括JM9231和JM9271兩(liang)款GPU芯片(pian)，分別面向(xiang)不同(tong)應用(yong)領域(yu)的中、高(gao)檔系(xi)列(lie)產品(pin)。據公司2020年(nian)中報顯示(shi)，下一代圖形處理(li)器研發處于(yu)后端設計階段，研發進程一切順(shun)利。

景嘉微JM9系列(lie)是繼JM5400和(he)JM7200局部渲(xuan)染計算(suan)內核之后(hou)，首次采用統一渲(xuan)染結構的(de)(de)GPU，并且增加了可(ke)編(bian)程計算(suan)模塊數量(liang)。JM9231和(he)JM9271在(zai)性能表(biao)現(xian)分(fen)別(bie)與英偉(wei)達于2016年推(tui)(tui)出(chu)的(de)(de)GTX1050和(he)GTX1080相近。JM9系列(lie)的(de)(de)推(tui)(tui)出(chu)將使(shi)公司GPU水(shui)(shui)平(ping)與海外龍頭水(shui)(shui)平(ping)縮短至5年，大幅(fu)提升公司在(zai)GPU領域的(de)(de)競(jing)爭(zheng)力。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲景嘉(jia)微(wei)后續高(gao)性(xing)能通用GPU性(xing)能參數對比(bi)

2、芯原微電子：國產GPU IP龍頭

芯原微電(dian)(dian)子是(shi)依(yi)托自(zi)主(zhu)半(ban)導體(ti)IP，為(wei)客戶提供平臺(tai)化、全方(fang)位、一站(zhan)式芯片(pian)定制服(fu)務和半(ban)導體(ti)IP授(shou)權(quan)服(fu)務的企業(ye)(ye)。公司(si)至(zhi)今擁有高(gao)清視(shi)頻(pin)、高(gao)清音(yin)頻(pin)及(ji)語(yu)音(yin)、車載娛樂系(xi)(xi)統處(chu)(chu)理(li)器(qi)(qi)、視(shi)頻(pin)監控(kong)、物聯網連接、數據中(zhong)心等(deng)多(duo)種一站(zhan)式芯片(pian)定制解決方(fang)案，以(yi)及(ji)5類自(zi)主(zhu)可控(kong)的處(chu)(chu)理(li)器(qi)(qi)IP，分別為(wei)圖形處(chu)(chu)理(li)器(qi)(qi)IP、神(shen)經網絡處(chu)(chu)理(li)器(qi)(qi)IP、視(shi)頻(pin)處(chu)(chu)理(li)器(qi)(qi)IP、數字(zi)信號(hao)處(chu)(chu)理(li)器(qi)(qi)IP和圖像信號(hao)處(chu)(chu)理(li)器(qi)(qi)IP，以(yi)及(ji)1,400多(duo)個數模(mo)混合(he)IP和射(she)頻(pin)IP，年(nian)均流片(pian)項目超過40個。主(zhu)營(ying)業(ye)(ye)務的應用領域廣泛包(bao)括(kuo)(kuo)消(xiao)費電(dian)(dian)子、汽車電(dian)(dian)子、計算機及(ji)周(zhou)邊(bian)、工業(ye)(ye)、數據處(chu)(chu)理(li)、物聯網等(deng)，主(zhu)要客戶包(bao)括(kuo)(kuo)IDM、芯片(pian)設(she)計公司(si)，以(yi)及(ji)系(xi)(xi)統廠商、大型物聯網公司(si)等(deng)。

芯(xin)原在(zai)傳(chuan)統CMOS、先進FinFET和(he)FD-SOI等(deng)全(quan)球主流半導體工(gong)藝(yi)節(jie)點上都(dou)具有(you)優秀(xiu)的設計(ji)能(neng)力，先進工(gong)藝(yi)制程覆蓋14nm/10nm/7nm FinFET和(he)28nm/22nm FD-SOI，并已開始進行5nm FinFET 芯(xin)片(pian)的設計(ji)研發和(he)新(xin)一(yi)代(dai) FD-SOI 工(gong)藝(yi)節(jie)點芯(xin)片(pian)的設計(ji)預研。

此外(wai)，根據Ipnest統計(ji)，芯原是2019年中(zhong)國大陸排名(ming)第(di)一、全球排名(ming)第(di)七的半導體IP授權服(fu)務供應(ying)商，全球市場占有率約為1.8%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯原股份發展歷程

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019全球IP企業市(shi)占率排名

芯(xin)(xin)(xin)(xin)原GPU IP源于公司(si)在(zai)2016年收購的美國嵌入式GPU設(she)計(ji)商圖(tu)芯(xin)(xin)(xin)(xin)技術(shu)（Vivante）。芯(xin)(xin)(xin)(xin)原在(zai)GPU IP領域已經掌握(wo)了支持主流圖(tu)形加速標準、自主可控指令集和可拓(tuo)展性強(qiang)，性能范圍廣泛等核(he)心技術(shu)，可廣泛應(ying)用于IOT、汽車(che)電(dian)子、PC等市(shi)(shi)場。根據 IPnest 報告，芯(xin)(xin)(xin)(xin)原GPU IP（含(han) ISP）市(shi)(shi)場占(zhan)有率(lv)排名(ming)全(quan)球前三(san)，僅(jin)次于ARM和Imagination，2019 年全(quan)球市(shi)(shi)場占(zhan)有率(lv)約為 11.8%。

目前，芯原(yuan)在圖形(xing)處理(li)器技(ji)術(shu)的(de)研發課題包括通用圖形(xing)處理(li)器運算(suan)內核的(de)持續(xu)優化(hua)和(he)矢量圖形(xing)處理(li)器DDR-Less技(ji)術(shu)。矢量GPU DDR-Less技(ji)術(shu)可以在不使用外部存儲器DDR的(de)基礎上(shang)，實現架構清晰、分工明確(que)、易于使用、軟件控(kong)制流程簡單等優點，適用于物聯網、可穿戴設(she)備和(he)車載設(she)備。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019全球IP設計分類(lei)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯(xin)原GPU IP的核心(xin)技術和典(dian)型應(ying)用示例

芯原可拓展Vivante GPU IP應用(yong)(yong)涵蓋(gai)從低功(gong)耗的小型物聯網MCU（GPU Nano IP系列）到面向(xiang)汽車和計(ji)算機應用(yong)(yong)的強大SoC（GPUArcturus圖形IP），可滿(man)足(zu)各種芯片尺寸和功(gong)耗預算，是具有成(cheng)本效益的優質圖形處理器解決方案。

芯原的(de)(de)(de)的(de)(de)(de)圖(tu)形處理器(qi)技術支持業界主(zhu)流(liu)的(de)(de)(de)嵌入式(shi)圖(tu)形加速標準Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等(deng)，具有自主(zhu)可控的(de)(de)(de)指令集(ji)及(ji)專(zhuan)用編譯器(qi)，支持每秒2500億次的(de)(de)(de)浮點運算能力及(ji)128個并行著色器(qi)處理單元。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯(xin)原GPU Nano IP產品線及(ji)其可應用(yong)場景

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯原GPU IP API和操作系統(tong)兼(jian)容性(xing)

芯原股份現(xian)有的半導體IP分(fen)為處理(li)器(qi)IP、數模混(hun)合IP及射頻IP，其中GPU IP隸屬于處理(li)器(qi)IP。整體來看(kan)，2017-2019芯原得益于不斷豐富的IP儲備(bei)及一(yi)站(zhan)式芯片定制業務(wu)的協同(tong)效(xiao)應，公(gong)司半導體IP授權業務(wu)收入持續(xu)上升，GPU IP的年復合增速達13%。2019年GPU IP的營(ying)收占公(gong)司半導體IP營(ying)收的31.29%，主要由(you)于其他類型IP收入上升，GPU IP比重(zhong)相(xiang)對(dui)下降。

芯原在圖形處理(li)器(qi)(qi)技術(shu)方(fang)面的(de)研發包括高性能的(de)通用(yong)圖形處理(li)器(qi)(qi)GC8400 IP，該IP適用(yong)于汽車電子，目前仍處IP設計驗(yan)證階(jie)段，擬達到每(mei)秒1萬億次的(de)浮點運(yun)算能力雙倍(bei)精密度，512個并行著(zhu)色器(qi)(qi)處理(li)單元。

3、航錦科技

航錦(jin)科技是(shi)一家(jia)大型化(hua)工(gong)生產基(ji)地，公司(si)的前身是(shi)錦(jin)西化(hua)工(gong)總廠。2017下半年(nian)，航錦(jin)科技通過收(shou)購長(chang)沙韶關和威科電子(zi)(zi)兩家(jia)軍工(gong)企業，挺(ting)進電子(zi)(zi)產業，形(xing)成化(hua)工(gong)+電子(zi)(zi)雙主(zhu)業發展模式，構建(jian)起三(san)個支撐(cheng)板(ban)塊（化(hua)工(gong)、電子(zi)(zi)、金融）。

航錦科技(ji)電子板塊以(yi)芯(xin)片為(wei)核(he)心產(chan)品，圍(wei)繞高(gao)端(duan)芯(xin)片與通信兩大(da)領(ling)域，覆(fu)蓋高(gao)端(duan)芯(xin)片（圖形處理芯(xin)片/特種FPGA/存儲芯(xin)片/總線(xian)接口芯(xin)片）、北斗3芯(xin)片以(yi)及通信射頻三大(da)主要產(chan)業。堅持軍民兩用為(wei)發(fa)展方向，產(chan)品廣(guang)(guang)泛應用于航空、航天、兵器、船舶、電子等領(ling)域，擁(yong)有廣(guang)(guang)闊的市場空間。

航錦(jin)科技的GPU技術源于并購(gou)的長沙韶(shao)光。2018年，長沙韶(shao)光自(zi)主研(yan)發和合作研(yan)發的第(di)一(yi)代(dai)及第(di)二(er)代(dai)圖(tu)形處理(li)芯片（GPU）獲(huo)得集成電路布圖(tu)設(she)(she)計登(deng)記證(zheng)書；2019年，長沙韶(shao)光自(zi)主研(yan)發的第(di)二(er)代(dai)改進型(xing)圖(tu)形處理(li)芯片在自(zi)主可控設(she)(she)備領域的應(ying)用(yong)得到驗證(zheng)，并收獲(huo)相關訂單。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲航錦(jin)科技(ji)自主可(ke)控芯片板塊示意圖

4、兆芯：同時掌握CPU、GPU、芯片組三大核心技術

上(shang)海兆芯集(ji)成電路有限(xian)公(gong)司(si)(si)，簡稱“兆芯”，由(you)上(shang)海聯合投(tou)資有限(xian)公(gong)司(si)(si)（上(shang)海市國資委(wei)完全出資）和中國臺灣威盛(sheng)電子(zi)共同成立，也是世界上(shang)第三(san)家擁(yong)有X86授(shou)權的微(wei)處理器公(gong)司(si)(si)，總部(bu)位(wei)于上(shang)海張(zhang)江，在北京(jing)、西安(an)、武漢、深圳等地設有研發中心和分支機構。

公司同時掌握CPU、GPU、芯片組三大核(he)心技術，且(qie)具備(bei)三大核(he)心芯片及(ji)相關(guan)IP設計與(yu)研發(fa)的能力，致力于(yu)通過技術創新(xin)(xin)與(yu)兼容主(zhu)流的發(fa)展路線，推動信息產(chan)業(ye)的整體發(fa)展，并獲(huo)評了“高新(xin)(xin)技術企(qi)業(ye)資質”。兆芯提供了桌面整機，服務(wu)器，工業(ye)主(zhu)板(ban)，工業(ye)平臺，系統(tong)級(ji)解決方案，在黨政辦公，交通，金(jin)融，能源，教育，網絡安全方面有著廣泛(fan)的應用。

2019Q2，兆芯(xin)(xin)發布了全新(xin)的用于PC的處(chu)理(li)器KX-6000系列。KX-6000是業內第一款完(wan)整集成(cheng)CPU、GPU、芯(xin)(xin)片組的SoC單芯(xin)(xin)片國(guo)產通(tong)用處(chu)理(li)器。

KX-6000系列處理器采用(yong)16納米制程，集成高(gao)性能顯(xian)卡，支持DP/HDMI/VGA輸(shu)出，兼容DirectX、OpenGL、OpenCL等主流API，最高(gao)可同時輸(shu)出3臺(tai)顯(xian)示(shi)器，分辨率可達4K。

全新(xin)的(de)KX-6000系列處理器擁有出色的(de)兼容性和(he)應用體(ti)驗，包括Windows操(cao)作系統，日常辦公應用，4K視頻解碼和(he)主(zhu)流游戲。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯(xin)KX-6000系列兼容性和應用體驗(yan)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯(xin)KX-6000處(chu)理器芯(xin)片(pian)架構(gou)?

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯KX-6000處(chu)理器集(ji)成顯卡參(can)數

兆(zhao)芯KX-6000的(de)(de)C-960 GPU在使(shi)用(yong)惠普兆(zhao)芯圖形(xing)DCH驅動(dong)的(de)(de)情況下，Dota 2游戲性能表現遠落(luo)后(hou)英特爾酷睿i5-7400的(de)(de)UHD 630。未來，兆(zhao)芯還會對(dui)KX系列處(chu)理器進(jin)行(xing)進(jin)一步(bu)的(de)(de)更(geng)新，使(shi)用(yong)全(quan)新的(de)(de)CPU架構，將內(nei)存從DDR4升級(ji)為DDR5，將總線(xian)從PCIe3.0升級(ji)至PCIe4.0。內(nei)存和總線(xian)的(de)(de)升級(ji)分別可以提高顯卡的(de)(de)帶寬和CPU與GPU間的(de)(de)通訊速度(du)。

除(chu)了以上(shang)集成GPU外，兆(zhao)芯還計劃(hua)發布一款(kuan)采(cai)用臺積電28納米工藝，TDP 70瓦(wa)的獨立GPU。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯KX6000 GPU游戲性(xing)能(neng)對(dui)比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯(xin)處理器發展路線圖

5、凌久電子GPU

凌久電子創立于(yu)1983年，是(shi)中國船舶重(zhong)工集團公(gong)司(si)第(di)七〇九研究所控股的高新技術企業。

凌(ling)久電(dian)子以嵌入式實時信號處理與高(gao)(gao)性能(neng)計算技術(shu)為(wei)基礎，面向(xiang)船舶、航空、航天、兵器等(deng)國防電(dian)子領域及軌道交(jiao)通、海(hai)工裝(zhuang)備、能(neng)源電(dian)力、半導體制造等(deng)民用高(gao)(gao)科技領域提供(gong)芯片(pian)級、模塊級、設備級、系統級等(deng)軟硬件產(chan)品；面向(xiang)科研院所、部隊及軍校提供(gong)作定(ding)制化(hua)軍事仿真服務(wu)。

凌久電子(zi)產(chan)品(pin)(pin)包括元器(qi)(qi)件(jian)類產(chan)品(pin)(pin)、基礎硬件(jian)設備(bei)、基礎支撐軟件(jian)、應用(yong)類產(chan)品(pin)(pin)四(si)大類。其中國(guo)產(chan)通用(yong)GPU GP101隸屬于元器(qi)(qi)件(jian)類產(chan)品(pin)(pin)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲凌久電子平臺產品

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲凌久電子元器件類(lei)產(chan)品分類(lei)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲凌久電子股權結構

GP101是由中國船舶重工集團第709研究所控股的凌(ling)久(jiu)電(dian)子(zi)研制，具備完全自主知識產(chan)權(quan)的圖(tu)(tu)形處理器芯片(pian)。GP101支(zhi)持(chi)2D/3D圖(tu)(tu)形加(jia)速(su)，支(zhi)持(chi)二(er)維(wei)矢量圖(tu)(tu)形加(jia)速(su),支(zhi)持(chi)4K分(fen)辨率、視頻(pin)解碼(ma)和(he)硬件圖(tu)(tu)層處理等(deng)功(gong)能GP101支(zhi)持(chi)VxWorks、Linux、Windows等(deng)通用操作系統，支(zhi)持(chi)中標麒(qi)麟、道等(deng)國產(chan)操作系統，支(zhi)持(chi)龍芯、飛騰、申威等(deng)國產(chan)處理器。

GP101實現了我國通(tong)用3D顯(xian)卡(ka)零的(de)(de)突破，在信(xin)息(xi)安(an)全和供(gong)貨能力(li)方便有充分的(de)(de)保障,可以廣泛應用于軍民多個領域。

6、中船重工716研究所：JARI G12 GPU

七一六所(suo)自主研發(fa)的(de)(de)JARI G12是2018年性能最強的(de)(de)國產通(tong)用(yong)圖形處(chu)理器。該處(chu)理器采(cai)用(yong)混合渲染(ran)架構，兼顧數據(ju)帶(dai)寬和渲染(ran)延(yan)時需(xu)求，極大地增(zeng)強了芯片的(de)(de)靈活性和適應性；

提供PCIe 3.0總(zong)線，支(zhi)持x86處理器和龍芯、飛騰、申威(wei)等(deng)國產處理器；支(zhi)持4路(lu)數字通(tong)道和1路(lu)VGA輸(shu)出(chu)，提供DP、eDP、HDMI、DVI等(deng)通(tong)用顯(xian)示(shi)介(jie)面(mian)，單路(lu)數字通(tong)道最大(da)輸(shu)出(chu)分辨率(lv)為3840×2160@60fps，支(zhi)持擴(kuo)展(zhan)、復制(zhi)顯(xian)示(shi)和“擴(kuo)展(zhan)+復制(zhi)”顯(xian)示(shi)模式；

內建視頻編解碼硬核，支持(chi)2路3840×2160分辨(bian)率視頻的編碼、解碼功能；

支持OpenGL 4.5和(he)OpenGL ES 3.0，滿足高性能3D加速(su)和(he)VR顯(xian)示需求(qiu)；

支持OpenCL 2.0，滿足并行計(ji)算和云計(ji)算的使用需求；

集成(cheng)張(zhang)量加(jia)速計算硬核，支持(chi)AI計算加(jia)速。該(gai)GPU支持(chi)Windows、Linux、VxWorks等主流(liu)操(cao)作系統，同時支持(chi)中(zhong)標麒(qi)麟(lin)、JARI-Works、道(dao)等國(guo)內自主可控操(cao)作系統，具備健全的(de)生(sheng)態環境體系。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲JARI G12架構示(shi)意(yi)圖

7、芯動科技：國產IP和芯片定制先驅

芯動(dong)科技是中(zhong)國一站式(shi)IP和芯片定(ding)制(zhi)(zhi)領軍企業，提(ti)供全(quan)球6大工藝廠（臺積電/三星/格芯/中(zhong)芯國際/聯華電子/英特爾）從130nm到(dao)5納(na)米全(quan)套高(gao)速混(hun)合(he)電路IP核和ASIC定(ding)制(zhi)(zhi)解決方(fang)案，聚焦(jiao)先進(jin)制(zhi)(zhi)程。

芯(xin)動(dong)科技(ji)15年來立足本土發展，所有IP和(he)產品(pin)全(quan)自主可控，連(lian)續(xu)十年中(zhong)國市(shi)場份額領先。公司客(ke)戶(hu)群涵蓋(gai)華(hua)為海(hai)思、中(zhong)興通訊、瑞芯(xin)微、全(quan)志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等(deng)全(quan)球知名企業。

在高性能計算/多媒體&汽車電子/IoT物聯網等領域，芯動解決方案具有國際先進水平，涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes（含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等）、ADC/DAC、智能圖像(xiang)處(chu)理器GPU和多媒體(ti)處(chu)理內核等多種技(ji)術。芯動科(ke)技(ji)的芯片定制，跨(kua)工(gong)藝(yi)跨(kua)封(feng)裝(zhuang)，涉及(ji)從需求到產品，能端到端為(wei)客(ke)戶加速從規(gui)格、設計(ji)到流(liu)片量產，及(ji)封(feng)裝(zhuang)成型(xing)全流(liu)程。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯動科(ke)技一站式IP系列

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯(xin)動(dong)科技(ji)高(gao)性能計算平臺IP

2020年10月(yue)13日，芯(xin)動科技(ji)與(yu)Imagination達成合作。采用最前沿的多(duo)(duo)晶粒芯(xin)片（chiplet）和(he)GDDR6高速(su)顯存等SOC創新，芯(xin)動科技(ji)將全球首發Imagination全新頂配BXT多(duo)(duo)核架構。

在信創和算力安(an)全方面，“風華”系列GPU內置國產物理不可克(ke)隆iUnique Security PUF信息(xi)安(an)全加密技術(shu)，提升數據安(an)全和算力抗攻擊性，支持(chi)桌面電腦(nao)和數據中心GPU計算自主可控生態。

“風(feng)華(hua)”系列(lie)GPU自(zi)帶(dai)浮點(dian)和智(zhi)能(neng)(neng)3D圖形(xing)處(chu)理功能(neng)(neng)，全定(ding)制多(duo)(duo)級流水計算內(nei)核，兼具(ju)高(gao)性能(neng)(neng)渲染(ran)和智(zhi)能(neng)(neng)AI算力，還可(ke)級聯組合多(duo)(duo)顆芯片合并(bing)處(chu)理能(neng)(neng)力，靈活性強，適配(pei)國產桌(zhuo)面市場1080P/4K/8K高(gao)品(pin)質顯示，支持VR/AR/AI，多(duo)(duo)路服務(wu)器云(yun)桌(zhuo)面、5G數(shu)據中心(xin)、云(yun)教育、云(yun)游戲(xi)、云(yun)辦公等中國新基建(jian)5G風(feng)口下的(de)大數(shu)據圖形(xing)應用場景。

8、華為海思：GPU Turbo

GPU Turbo是一(yi)種軟(ruan)硬協同的圖形加速技術，可以減少無用渲染次(ci)數，優化(hua)或合并渲染區域。通(tong)過算法，將(jiang)相關運算放在一(yi)個或相鄰的寄存器中(zhong)，以此來優化(hua)圖形處理(li)效(xiao)率。

GPU Turbo技術打通了EMUI操作系(xi)統(tong)(tong)以及GPU和CPU之間的處理(li)瓶頸，在系(xi)統(tong)(tong)底層對傳統(tong)(tong)的圖形處理(li)框架進行(xing)了重構，實(shi)現了軟硬件協同，使(shi)得GPU圖形處理(li)整體效率得到大幅提升。

2018年6月發布(bu)了(le)GPU Turbo 1.0，圖形處理效率提(ti)高(gao)60%，同時(shi)做到更省電，保(bao)證高(gao)畫質。

2018年9月發布(bu)了GPU Turbo 2.0，游(you)戲場(chang)景下功耗下降可達13.6%，新增支持多款主流(liu)游(you)戲，同時針對支持的(de)游(you)戲中關鍵&極限(xian)場(chang)景（如團戰、載具等）進行了重點打磨與優(you)化。

2019年4月GPU Turbo全(quan)新(xin)升級，不(bu)僅帶來主(zhu)流游戲接近滿幀運(yun)行的酣暢體驗，功耗的持續(xu)降低也帶來了續(xu)航時(shi)間(jian)的提升。累計支持60款國內游戲。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU Turbo 2.0能效對比

9、龍芯：GPU突擊隊

中科院計算(suan)所于2001年成立(li)龍芯(xin)課題組，開始研制龍芯(xin)系列處理器，得到了中科院、863、973、核高基等項目大力支持，完成了十(shi)年的(de)核心技(ji)術積累。2010年4月(yue)，中國科學院和北京(jing)市共同牽頭(tou)出資入股，成立(li)龍芯(xin)中科技(ji)術有限公(gong)司，龍芯(xin)正式從研發走向(xiang)產業(ye)化。

目前，龍(long)芯自(zi)主(zhu)研發的GPU集(ji)成(cheng)在7A1000橋片中。龍(long)芯7A1000橋片是面(mian)向龍(long)芯3號處理(li)器的芯片組，通(tong)過HT3.0接(jie)口與(yu)處理(li)器相連，集(ji)成(cheng)GPU、顯(xian)(xian)示控制器和獨立顯(xian)(xian)存(cun)接(jie)口，外圍接(jie)口包括(kuo)32路(lu)(lu)PCIE2.0、2路(lu)(lu)GMAC、3路(lu)(lu)SATA2.0、6路(lu)(lu)USB2.0和其它低速(su)接(jie)口，可以滿足桌面(mian)和服務(wu)器領域(yu)對IO接(jie)口的應(ying)用需求，并通(tong)過外接(jie)獨立顯(xian)(xian)卡的方(fang)式(shi)支持高性能圖形應(ying)用需求。

雖然(ran)龍(long)芯7A1000橋(qiao)片(pian)的GPU性(xing)能一般，但(dan)是橋(qiao)片(pian)作(zuo)為(wei)CPU產業(ye)鏈的一環，龍(long)芯已經(jing)實現CPU、橋(qiao)片(pian)和(he)GPU上(shang)完全自主化，打(da)通了CPU產業(ye)鏈上(shang)每一個(ge)環節。

2020年(nian)(nian)，龍芯成立六(liu)支研發突(tu)(tu)擊(ji)(ji)隊(dui)，分別為3A5000突(tu)(tu)擊(ji)(ji)隊(dui)、3C5000突(tu)(tu)擊(ji)(ji)隊(dui)、7A2000突(tu)(tu)擊(ji)(ji)隊(dui)、2K2000突(tu)(tu)擊(ji)(ji)隊(dui)、GPU突(tu)(tu)擊(ji)(ji)隊(dui)、PCIE突(tu)(tu)擊(ji)(ji)隊(dui)。這六(liu)支突(tu)(tu)擊(ji)(ji)隊(dui)的(de)(de)目的(de)(de)就是要把2-3年(nian)(nian)的(de)(de)工作，在一年(nian)(nian)內(nei)干完(wan)！

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲龍芯7A1000

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲龍(long)芯7A1000 GPU相關(guan)參數

10、芯瞳半導體：高性能GPU設計新星

芯(xin)(xin)瞳(tong)半(ban)導體成(cheng)立(li)于2019年(nian)，主要業務包括GPU芯(xin)(xin)片設計、異構(gou)計算(suan)平臺方案(an)、嵌入式顯示系統解決方案(an)、GPU應用部署(shu)解決方案(an)。公司著力于研發(fa)高(gao)性(xing)能的(de)(de)(de)GPU芯(xin)(xin)片，為用戶提供(gong)以自研GPU芯(xin)(xin)片為核心的(de)(de)(de)解決方案(an)，致(zhi)力于打造業界領先的(de)(de)(de)GPU芯(xin)(xin)片設計平臺，目標是(shi)成(cheng)為國際一流的(de)(de)(de)GPU芯(xin)(xin)片設計企業。公司創始(shi)團(tuan)隊在(zai)GPU領域有著超過(guo)10年(nian)的(de)(de)(de)學術和工程(cheng)經驗(yan)，是(shi)一支軟硬(ying)件全棧式支持(chi)的(de)(de)(de)研發(fa)團(tuan)隊。

公司(si)的(de)(de)GPU架(jia)構(gou)(gou)采用了(le)業(ye)界主流的(de)(de)統一渲染架(jia)構(gou)(gou)，并(bing)具有高(gao)度(du)可擴(kuo)展的(de)(de)互聯結構(gou)(gou)和(he)計算陣列，便于芯(xin)片(pian)(pian)后續迭(die)代升(sheng)級(ji)。經過(guo)多年的(de)(de)積累(lei)，團隊(dui)構(gou)(gou)建(jian)了(le)芯(xin)片(pian)(pian)建(jian)模虛(xu)擬平臺(tai)，通過(guo)該虛(xu)擬平臺(tai)，團隊(dui)可以快(kuai)速地完成(cheng)GPU相關軟件(jian)的(de)(de)研(yan)發和(he)軟件(jian)生態的(de)(de)部署，與(yu)此(ci)同時，在(zai)該虛(xu)擬平臺(tai)上快(kuai)速地對芯(xin)片(pian)(pian)架(jia)構(gou)(gou)進行驗(yan)證(zheng)，從而縮短GPU芯(xin)片(pian)(pian)的(de)(de)設計驗(yan)證(zheng)周期，提升(sheng)GPU芯(xin)片(pian)(pian)的(de)(de)設計效(xiao)能。

公司第一代(dai)GPU芯片（GenBu01）初測已(yi)成功，已(yi)與統信(xin)、麒麟及(ji)昆侖(lun)完成適(shi)配，目(mu)前正在為(wei)小批量(liang)量(liang)產做(zuo)最終測試。 GenBu01主要面(mian)向的客(ke)(ke)戶(hu)為(wei)需要定制嵌入(ru)式計算機產品的客(ke)(ke)戶(hu)以及(ji)為(wei)國產替代(dai)領域提供(gong)信(xin)創辦(ban)公PC的ODM/OEM廠商。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯瞳(tong)GenBu01參數(shu)

11、天數智芯：國產GPGPU領跑者

天(tian)(tian)數(shu)智(zhi)芯(xin)(xin)于(yu)(yu)2018年正(zheng)式啟動GPGPU芯(xin)(xin)片(pian)設(she)計(ji)，是中國第一家GPGPU高(gao)(gao)端(duan)芯(xin)(xin)片(pian)及(ji)超級算(suan)力提(ti)供商。天(tian)(tian)數(shu)智(zhi)芯(xin)(xin)重點打造自(zi)(zi)主(zhu)可控、國際一流的(de)通用、標(biao)準(zhun)、高(gao)(gao)性(xing)能(neng)云端(duan)計(ji)算(suan)芯(xin)(xin)片(pian)GPGPU，從芯(xin)(xin)片(pian)端(duan)解決計(ji)算(suan)力問題；并推出面向5G技術(shu)需求的(de)邊緣(yuan)云端(duan)推理GPGPU，提(ti)供對當前進口主(zhu)流GPGPU體(ti)系的(de)無(wu)縫兼容和市場(chang)化選擇(ze)。2021年1月15日，天(tian)(tian)數(shu)智(zhi)芯(xin)(xin)成功(gong)點亮自(zi)(zi)研7納米制(zhi)程GPGPU云端(duan)訓練芯(xin)(xin)片(pian)，性(xing)能(neng)達市場(chang)主(zhu)流產(chan)品的(de)兩倍。該(gai)芯(xin)(xin)片(pian)量產(chan)后(hou)將廣泛應用于(yu)(yu)AI訓練、高(gao)(gao)性(xing)能(neng)計(ji)算(suan)（HPC）等(deng)場(chang)景，服(fu)務于(yu)(yu)教育、互(hu)聯網、金融、自(zi)(zi)動駕駛(shi)、醫療、安防等(deng)各相(xiang)關行業，賦能(neng)AI智(zhi)能(neng)社會。

天(tian)數智芯7納米GPGPU高端自(zi)研云端訓練芯片(pian)的產品優(you)勢包(bao)括：全方位生態兼容、高性能有效算力、指令集編(bian)程架構(gou)、軟硬件全棧支(zhi)持、全自(zi)主(zhu)知識產權。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲天(tian)數智芯(xin)GPGPU BI芯(xin)片參數

12、壁仞科技和沐曦集成電路

壁(bi)仞科技創立(li)于2019年，團(tuan)隊(dui)由國內外(wai)芯(xin)片和(he)云計算領域核心專業人員、研發人員組成(cheng)，在(zai)GPU、DSA（專用(yong)加速器）和(he)計算機(ji)體系結構等領域具有深厚的技術積累(lei)和(he)獨到的行(xing)業洞見。

壁(bi)仞科(ke)技致力(li)于(yu)開發原創性(xing)的通用計算(suan)體系，建立高(gao)效的軟硬件平(ping)臺，同時(shi)在智(zhi)(zhi)能(neng)(neng)計算(suan)領(ling)域(yu)提供(gong)一體化的解(jie)決(jue)(jue)方案。從發展路(lu)徑(jing)上，壁(bi)仞科(ke)技將首先(xian)聚焦云端(duan)通用智(zhi)(zhi)能(neng)(neng)計算(suan)，逐步(bu)在人(ren)工(gong)智(zhi)(zhi)能(neng)(neng)訓練和推理、圖形渲染(ran)、高(gao)性(xing)能(neng)(neng)通用計算(suan)等多個領(ling)域(yu)趕超(chao)現有解(jie)決(jue)(jue)方案，實現國產高(gao)端(duan)通用智(zhi)(zhi)能(neng)(neng)計算(suan)芯(xin)片的突破。

沐(mu)曦集成電路專注于設計(ji)具(ju)有完(wan)全自主知識產權(quan)，針對(dui)異(yi)(yi)構計(ji)算(suan)(suan)(suan)等各類應(ying)用(yong)的高(gao)性(xing)能(neng)通用(yong)GPU芯(xin)片。公司(si)致力(li)于打造國內最強商(shang)用(yong)GPU芯(xin)片，產品主要(yao)應(ying)用(yong)方(fang)向包含傳統GPU及移動應(ying)用(yong)，人工智能(neng)、云計(ji)算(suan)(suan)(suan)、數據中(zhong)心等高(gao)性(xing)能(neng)異(yi)(yi)構計(ji)算(suan)(suan)(suan)領域。

對于研(yan)(yan)發的方(fang)向，沐曦表示(shi)將采(cai)用(yong)業界最先進的5nm工(gong)藝技術，研(yan)(yan)發全兼容CUDA及(ji)ROCm生態的國產高性能(neng)GPU芯(xin)片，滿足HPC、數據中心(xin)及(ji)AI等(deng)方(fang)面的計算需求。GPU將采(cai)用(yong)原創專(zhuan)利保護的可(ke)重(zhong)構GPU架(jia)構，突(tu)破傳統(tong)GPU芯(xin)片能(neng)效瓶頸(jing)；采(cai)用(yong)數據壓縮，數據廣播以及(ji)共(gong)享硬件(jian)加速單(dan)元等(deng)先進技術，大幅度優化核心(xin)算力能(neng)耗比。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲沐(mu)曦高性能GPU研發項(xiang)目

12、登臨科技和摩爾線程

登(deng)臨(lin)科(ke)技(ji)成(cheng)立于2017年11月(yue)，是一家專注于為(wei)新興計(ji)算(suan)領域提供高性(xing)能、高功(gong)效(xiao)計(ji)算(suan)平臺的(de)(de)(de)高科(ke)技(ji)企業。公(gong)(gong)司的(de)(de)(de)產品是以芯(xin)片為(wei)核(he)心(xin)的(de)(de)(de)系統解決方案(an)，在所有核(he)心(xin)IP上堅持自研(yan)路線。登(deng)臨(lin)科(ke)技(ji)已完成(cheng)由元禾璞華、元生資(zi)本聯(lian)合(he)領投的(de)(de)(de)A+輪(lun)融資(zi)，包括北(bei)極光在內(nei)的(de)(de)(de)老股東(dong)持續(xu)在本輪(lun)加碼(ma)跟(gen)進。登(deng)臨(lin)科(ke)技(ji)的(de)(de)(de)首款GPU+（軟件(jian)定義的(de)(de)(de)片內(nei)異構通(tong)用人(ren)工智能處(chu)理器)產品已成(cheng)功(gong)回片通(tong)過測試(shi)，開始客戶送樣，公(gong)(gong)司團(tuan)隊具備架構、系統、軟件(jian)、硬件(jian)、芯(xin)片、驗(yan)證等方面的(de)(de)(de)綜合(he)能力(li)。

登臨科技GoldwasserTM GPU+產品(pin)在現有市場主流(liu)的(de)GPU架構(gou)上，創新采(cai)用(yong)軟硬件協同(tong)的(de)異構(gou)設計。GPU+異構(gou)設計讓產品(pin)在對客(ke)戶實(shi)際業務繼承在現有生(sheng)態上的(de)投入、在保證極高(gao)兼容(rong)性(xing)的(de)同(tong)時，相比傳統GPU在AI計算上性(xing)能(neng)和能(neng)效均有明顯(xian)提升(sheng)，大(da)大(da)降低了外部(bu)帶寬的(de)需(xu)求(qiu)，顯(xian)著降低客(ke)戶總擁有成(cheng)本。

摩爾線程(cheng)創立于2020年10月(yue)(yue)，去年12月(yue)(yue)獲得(de)天(tian)使輪(lun)融(rong)資，今年2月(yue)(yue)22日獲得(de)Pre-A輪(lun)融(rong)資。摩爾線程(cheng)致(zhi)力于構建中國視覺(jue)計(ji)(ji)算(suan)和人工智(zhi)能領域計(ji)(ji)算(suan)平(ping)臺(tai)，研發(fa)全球領先(xian)的(de)自主創新GPU知(zhi)識產(chan)權，其GPU產(chan)品線覆蓋(gai)通(tong)用圖形計(ji)(ji)算(suan)和高(gao)性能計(ji)(ji)算(suan)。公司核(he)心成員(yuan)主要來自英(ying)(ying)偉達、微軟、英(ying)(ying)特爾、AMD、ARM等，覆蓋(gai)GPU研發(fa)設計(ji)(ji)、生(sheng)產(chan)制造(zao)、市場(chang)銷(xiao)售、服(fu)務支(zhi)持等完整架構。

13、國產GPU新星：翰博半導體

翰(han)博半導(dao)體成立(li)于2018年12月(yue)，立(li)志于發展成為(wei)國(guo)際(ji)頂尖的(de)芯片公司(si)，立(li)足于中國(guo)市場(chang)(chang)，填補國(guo)內市場(chang)(chang)國(guo)產芯片的(de)空白，為(wei)智(zhi)能(neng)應用提供高效算力，為(wei)人工智(zhi)能(neng)創新以及應用落(luo)地賦(fu)能(neng)。

翰(han)博半(ban)導(dao)體(ti)擁(yong)有國內外專家組成的團隊(dui)。公司(si)核(he)心(xin)員工來自世界(jie)頂級的高科技(ji)公司(si)，平均擁(yong)有15年以上的相關芯片，軟件(jian)設計經驗。

瀚博的(de)產品注重計算機視覺及(ji)視頻處理的(de)優化，提供豐富的(de)特性(xing)，高效(xiao)的(de)性(xing)能(neng)/功(gong)耗；適用多(duo)個人(ren)工智能(neng)領域。產品覆蓋從邊(bian)到云，SOC及(ji)服(fu)務器(qi)市場(chang)。

翰博半導體CEO—錢(qian)軍(jun)擁(yong)有(you)25年以上(shang)高(gao)端芯(xin)(xin)片設計(ji)經驗(yan)和(he)(he)40多款芯(xin)(xin)片設計(ji)和(he)(he)量(liang)產(chan)(chan)的經驗(yan)，帶隊(dui)設計(ji)量(liang)產(chan)(chan)業界第一顆7納米圖(tu)像處理(li)器(qi)和(he)(he)AI服(fu)務(wu)(wu)器(qi)芯(xin)(xin)片，曾任AMD高(gao)管Senior Director，直接負(fu)責設計(ji)團隊(dui)超過800人，全面(mian)負(fu)責GPU（圖(tu)像處理(li)器(qi)和(he)(he)AI服(fu)務(wu)(wu)器(qi)）芯(xin)(xin)片設計(ji)和(he)(he)生產(chan)(chan)，現在市場上(shang)所有(you)AMD Radeon圖(tu)像處理(li)器(qi)和(he)(he)AI服(fu)務(wu)(wu)器(qi)都是由其(qi)帶隊(dui)開發(fa)，包括(kuo)多個(ge)系列(lie)DGPU和(he)(he)MI系列(lie)產(chan)(chan)品。

14、國產GPU新星：燧原科技

燧(sui)原(yuan)科技成(cheng)立于2018年3月，專(zhuan)注(zhu)于人工智能(neng)領域云端算力平臺(tai)，致(zhi)力為人工智能(neng)產(chan)(chan)業發展提供普惠的(de)基礎設施解決(jue)方案，提供自主知識(shi)產(chan)(chan)權(quan)的(de)高(gao)算力、高(gao)能(neng)效比(bi)、可編(bian)程的(de)通用人工智能(neng)訓練和推理產(chan)(chan)品。

燧(sui)(sui)原科技(ji)的產品技(ji)術由訓練、推(tui)(tui)理、軟(ruan)件(jian)平(ping)臺(tai)構成。其中，訓練業務包含(han)(han)加速(su)卡 “云燧(sui)(sui)T10” 和“云燧(sui)(sui)T11”；推(tui)(tui)理業務包含(han)(han)加速(su)卡 “云燧(sui)(sui)i10”；軟(ruan)件(jian)平(ping)臺(tai)包含(han)(han)“馭算”。

“云(yun)燧(sui)”系列加速(su)卡采(cai)用自研DTU架構(gou)，支(zhi)持ESL高速(su)互(hu)聯和(he)開放生(sheng)態。 “云(yun)燧(sui)”芯片(pian)采(cai)用格羅方德的(de)12nm FinFET工藝(yi)，結合 2.5D先進(jin)封裝，擁有141億(yi)晶體管(guan)和(he)16GB HBM2顯存，在FP32的(de)算力和(he)能效比方面領先GPU。

計算及編(bian)程平(ping)臺“馭算”，由燧原自主研發，支持(chi)主流深度(du)學(xue)習框架(jia)，并針對邃思(si)芯片進行了(le)針對性優(you)化。

智東西認為，GPU設計之初是(shi)為了(le)圖(tu)像處理(li)，但是(shi)隨著(zhu)技術的不(bu)斷迭代升級，GPU的功能已經不(bu)僅限(xian)于“畫圖(tu)”，憑借在并行處理(li)和通(tong)用計算的優勢，GPU在服務器(qi)、汽車、人工(gong)智能、邊緣(yuan)計算等(deng)領域已經開始大放異彩。現階段，雖然(ran)國(guo)產GPU與英偉(wei)達、AMD等(deng)世界巨頭(tou)差(cha)距明顯，但在一些空(kong)白(bai)的細(xi)分領域或許有很大的“彎道超車”空(kong)間。

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

一、GPU：專用計算時代的“畫師”

二、GPU的全球格局

1、英偉達

2、全球GPU先驅：AMD

3、英特爾：全球GPU追趕者

4、ARM Mali：全球GPU IP巨頭

5、全球GPU IP巨頭：Imagination

6、高通Adreno：全球移動GPU先驅

7、蘋果：全球移動GPU新秀

三、國產GPU自主之路

1、景嘉微：具有完全自主知識產權，打破國外GPU長期壟斷

2、芯原微電子：國產GPU IP龍頭

3、航錦科技

4、兆芯：同時掌握CPU、GPU、芯片組三大核心技術

5、凌久電子GPU

6、中船重工716研究所：JARI G12 GPU

7、芯動科技：國產IP和芯片定制先驅

8、華為海思：GPU Turbo

9、龍芯：GPU突擊隊

10、芯瞳半導體：高性能GPU設計新星

11、天數智芯：國產GPGPU領跑者

12、壁仞科技和沐曦集成電路

12、登臨科技和摩爾線程

13、國產GPU新星：翰博半導體

14、國產GPU新星：燧原科技

相關推薦