GPU是(shi)Graphics Processing Unit(圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi))的(de)(de)簡稱(cheng),它(ta)是(shi)一種專門在(zai)個人(ren)電(dian)腦(nao)(nao)、工作(zuo)站、游(you)戲機和一些(xie)移動(dong)設備(如平板(ban)電(dian)腦(nao)(nao)、智能手機等(deng)(deng))上運行繪圖(tu)(tu)運算工作(zuo)的(de)(de)微處(chu)(chu)(chu)(chu)理器(qi)(qi)。圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)是(shi)NVIDIA公司(NVIDIA)在(zai)1999年8月發(fa)表NVIDIA GeForce 256(GeForce 256)繪圖(tu)(tu)處(chu)(chu)(chu)(chu)理芯片(pian)時首先提出的(de)(de)概念,在(zai)此之前,電(dian)腦(nao)(nao)中處(chu)(chu)(chu)(chu)理影像輸出的(de)(de)顯示(shi)芯片(pian),通常(chang)很少(shao)被(bei)視為是(shi)一個獨(du)立的(de)(de)運算單元。而對(dui)手冶(ye)天科技(ATi)亦提出視覺處(chu)(chu)(chu)(chu)理器(qi)(qi)(Visual Processing Unit)概念。圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)使顯卡減少(shao)對(dui)中央(yang)處(chu)(chu)(chu)(chu)理器(qi)(qi)(CPU)的(de)(de)依賴,并分擔部分原本(ben)是(shi)由中央(yang)處(chu)(chu)(chu)(chu)理器(qi)(qi)所(suo)擔當的(de)(de)工作(zuo),尤其是(shi)在(zai)進行三維繪圖(tu)(tu)運算時,功效更加(jia)明顯。圖(tu)(tu)形(xing)(xing)處(chu)(chu)(chu)(chu)理器(qi)(qi)所(suo)采用的(de)(de)核心(xin)技術(shu)有(you)硬(ying)件坐標轉換與光源、立體環境(jing)材(cai)質(zhi)貼圖(tu)(tu)和頂(ding)點混合、紋理壓縮和凹凸(tu)映射貼圖(tu)(tu)、雙重(zhong)紋理四(si)像素(su)256位(wei)渲(xuan)染(ran)引擎(qing)等(deng)(deng)。
圖(tu)形處理(li)器可單獨(du)(du)與專(zhuan)用(yong)電(dian)路板以(yi)及附屬組件組成(cheng)(cheng)顯(xian)卡(ka)(ka),或(huo)(huo)單獨(du)(du)一片芯(xin)(xin)片直接內(nei)(nei)嵌(qian)入(ru)到主板上(shang),或(huo)(huo)者內(nei)(nei)置于(yu)(yu)(yu)主板的(de)(de)北橋芯(xin)(xin)片中,現在(zai)(zai)(zai)(zai)也有(you)內(nei)(nei)置于(yu)(yu)(yu)CPU上(shang)組成(cheng)(cheng)SoC的(de)(de)。個(ge)人(ren)電(dian)腦領域中,在(zai)(zai)(zai)(zai)2007年(nian),90%以(yi)上(shang)的(de)(de)新型臺式(shi)機(ji)和(he)筆記本電(dian)腦擁有(you)嵌(qian)入(ru)式(shi)繪圖(tu)芯(xin)(xin)片,但是在(zai)(zai)(zai)(zai)性(xing)能(neng)上(shang)往往低于(yu)(yu)(yu)不少獨(du)(du)立(li)顯(xian)卡(ka)(ka)。但2009年(nian)以(yi)后(hou),AMD和(he)英特爾都各自大(da)力發展(zhan)內(nei)(nei)置于(yu)(yu)(yu)中央處理(li)器內(nei)(nei)的(de)(de)高(gao)性(xing)能(neng)集成(cheng)(cheng)式(shi)圖(tu)形處理(li)核(he)心,它們(men)的(de)(de)性(xing)能(neng)在(zai)(zai)(zai)(zai)2012年(nian)時(shi)已經勝于(yu)(yu)(yu)那些低端(duan)獨(du)(du)立(li)顯(xian)卡(ka)(ka),這使(shi)得不少低端(duan)的(de)(de)獨(du)(du)立(li)顯(xian)卡(ka)(ka)逐(zhu)漸失去市場需(xu)求,兩(liang)大(da)個(ge)人(ren)電(dian)腦圖(tu)形處理(li)器研發巨頭中,AMD以(yi)AMD APU產品(pin)線(xian)取代旗下大(da)部分的(de)(de)低端(duan)獨(du)(du)立(li)顯(xian)示核(he)心產品(pin)線(xian)。而在(zai)(zai)(zai)(zai)手持(chi)設(she)備領域上(shang),隨著一些如平(ping)板電(dian)腦等設(she)備對圖(tu)形處理(li)能(neng)力的(de)(de)需(xu)求越來越高(gao),不少廠商像是高(gao)通(Qualcomm)、Imagination、ARM、NVIDIA等,也在(zai)(zai)(zai)(zai)這個(ge)領域“大(da)顯(xian)身(shen)手”。
GPU不同(tong)于(yu)傳(chuan)統的CPU,如Intel i5或i7處理器(qi),其內(nei)核(he)數(shu)量較少,專(zhuan)為(wei)通用計(ji)算(suan)(suan)而(er)設(she)計(ji)。相反,GPU是一種(zhong)特(te)殊類型的處理器(qi),具(ju)有數(shu)百或數(shu)千個(ge)內(nei)核(he),經過(guo)優化,可并行(xing)(xing)運(yun)行(xing)(xing)大量計(ji)算(suan)(suan)。雖然(ran)GPU在游(you)戲中以3D渲染(ran)而(er)聞(wen)名,但它們(men)對(dui)運(yun)行(xing)(xing)分析(xi)、深度學習(xi)和機器(qi)學習(xi)算(suan)(suan)法(fa)尤其有用。GPU允許(xu)某些(xie)計(ji)算(suan)(suan)比傳(chuan)統CPU上運(yun)行(xing)(xing)相同(tong)的計(ji)算(suan)(suan)速度快(kuai)10倍至(zhi)100倍。
本期的(de)(de)智能內參(can),我們推薦方正證券的(de)(de)報告《GPU研究框(kuang)架(jia)》,從(cong)GPU的(de)(de)底(di)層技(ji)術、產業鏈發展情況和國(guo)產GPU的(de)(de)自主之路三方面全面解析(xi)GPU及其產業。
本(ben)期內參來源:方正證券
原標題:
《GPU研究框架》
作者:陳杭 等
一、GPU:專用計算時代的“畫師”
GPU(graphics processing unit)圖(tu)(tu)(tu)形處(chu)(chu)(chu)(chu)理(li)(li)器,又稱顯示核心、視覺處(chu)(chu)(chu)(chu)理(li)(li)器、顯示芯(xin)片(pian),是一(yi)種在(zai)個人(ren)電(dian)腦(nao)(nao)、工(gong)作站、游戲(xi)機(ji)和(he)一(yi)些移動設備(如平板電(dian)腦(nao)(nao)、智能手機(ji)等)上做圖(tu)(tu)(tu)像(xiang)和(he)圖(tu)(tu)(tu)形相(xiang)關(guan)運算工(gong)作的(de)微處(chu)(chu)(chu)(chu)理(li)(li)器。GPU通(tong)常包(bao)括圖(tu)(tu)(tu)形顯存控制(zhi)器、壓(ya)縮(suo)單(dan)元、BIOS、圖(tu)(tu)(tu)形和(he)計(ji)算整列、總線接口、電(dian)源管(guan)理(li)(li)單(dan)元、視頻管(guan)理(li)(li)單(dan)元、顯示界(jie)面。GPU的(de)出現使計(ji)算機(ji)減少了對CPU的(de)依(yi)賴,并解(jie)放(fang)了部分(fen)原本CPU的(de)工(gong)作。在(zai)3D圖(tu)(tu)(tu)形處(chu)(chu)(chu)(chu)理(li)(li)時,GPU采(cai)用的(de)核心技術有硬件T&L(幾何轉換和(he)光照處(chu)(chu)(chu)(chu)理(li)(li))、立方環境材質貼圖(tu)(tu)(tu)和(he)頂(ding)點(dian)混(hun)合(he)、紋(wen)理(li)(li)壓(ya)縮(suo)和(he)凹凸(tu)映(ying)射貼圖(tu)(tu)(tu)、雙(shuang)重紋(wen)理(li)(li)四像(xiang)素(su)256位渲染引擎等,而硬件T&L技術可以(yi)說是GPU的(de)標志。

▲GPU的內部(bu)組成部(bu)分

▲GPU核心及PCB板
GPU的微架構(Micro Architecture)是一種給定的指令集和圖形函數集合在處理器中執行的方法。圖(tu)形(xing)函數主要(yao)(yao)用(yong)于繪制各(ge)種圖(tu)形(xing)所需要(yao)(yao)的(de)(de)運算(suan)。當前和(he)(he)像素、光影處理、3D坐標變換等相關運算(suan)由GPU硬件加速來(lai)實(shi)現。相同的(de)(de)指令集和(he)(he)圖(tu)形(xing)函數集合可(ke)以在不同的(de)(de)微(wei)架構(gou)(gou)中執行,但實(shi)施的(de)(de)目的(de)(de)和(he)(he)效果可(ke)能不同。優秀(xiu)的(de)(de)微(wei)架構(gou)(gou)對GPU性(xing)能和(he)(he)效能的(de)(de)提(ti)升發揮著至關重要(yao)(yao)的(de)(de)作用(yong),GPU體系(xi)是GPU微(wei)架構(gou)(gou)和(he)(he)圖(tu)形(xing)API的(de)(de)集合。
以目前最(zui)新的(de)英偉(wei)達安培微架(jia)構為例,GPU微架(jia)構的(de)運算(suan)部份由(you)流處理器(qi)(Stream Processor,SP)、紋理單(dan)元(yuan)(yuan)(yuan)(yuan)(Texture mapping unit, TMU)、張量(liang)單(dan)元(yuan)(yuan)(yuan)(yuan)(Tensor Core)、光(guang)線追蹤單(dan)元(yuan)(yuan)(yuan)(yuan)(RT Cores)、光(guang)柵化處理單(dan)元(yuan)(yuan)(yuan)(yuan)(ROPs)組成。這些運算(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)中,張量(liang)單(dan)元(yuan)(yuan)(yuan)(yuan),光(guang)線追蹤單(dan)元(yuan)(yuan)(yuan)(yuan)由(you)NVIDIA在伏(fu)特/圖(tu)靈微架(jia)構引入。
除了上述運算(suan)單元外(wai),GPU的微架構還(huan)包含L0/L1操作緩存(cun)(cun)、Warp調度器(qi)、分(fen)配單元(Dispatch Unit)、寄存(cun)(cun)器(qi)堆(register file)、特殊功能單元(Special function unit,SFU)、存(cun)(cun)取單元、顯卡(ka)互(hu)聯單元(NV Link)、PCIe總線接(jie)口(kou)、L2緩存(cun)(cun)、二代高位寬顯存(cun)(cun)(HBM2)等接(jie)口(kou)。

▲英偉達安培內核概覽

▲英偉(wei)達安培內核“SM”單元
GPU的流(liu)處理器(qi)單(dan)元(yuan)是NVIDIA對(dui)其統一(yi)架構GPU內通用(yong)標量著色器(qi)的命名(ming)。SP單(dan)元(yuan)是全(quan)新的全(quan)能渲染(ran)單(dan)元(yuan),是繼(ji)Pixel Pipelines(像(xiang)素管(guan)線(xian))和Vertex Pipelines(頂點(dian)管(guan)線(xian))之后新一(yi)代的顯(xian)卡渲染(ran)技術指標。SP單(dan)元(yuan)既可以(yi)完(wan)成(cheng)VS(Vertex Shader,頂點(dian)著色器(qi))運算,也可以(yi)完(wan)成(cheng)PS(Pixel Shader,像(xiang)素著色器(qi))運算,而且(qie)可以(yi)根(gen)據(ju)需(xu)要組成(cheng)任(ren)意VS/PS比例,從而給開發者更廣(guang)闊的發揮空間。
流處(chu)理(li)器單元首次(ci)出現于DirectX 10時代(dai)的(de)G80核(he)心(xin)的(de)Nvidia GeForce 8800GTX顯卡(ka),是(shi)顯卡(ka)發展史(shi)上一(yi)次(ci)重大的(de)革新。之后(hou)AMD/ATI的(de)顯卡(ka)也(ye)引入(ru)了這一(yi)概念,但是(shi)流處(chu)理(li)器在橫(heng)向和縱向都不可(ke)類比,大量的(de)流處(chu)理(li)器是(shi)GPU性能(neng)強勁的(de)必要非充分(fen)條件。
紋理(li)映(ying)射單元(TMU)作為GPU的(de)部(bu)件,它能夠對二進制(zhi)圖像旋轉、縮(suo)放(fang)、扭曲,然后將其(qi)作為紋理(li)放(fang)置(zhi)到(dao)給定3D模型的(de)任意(yi)平(ping)面,這個過程稱為紋理(li)映(ying)射。紋理(li)映(ying)射單元不可(ke)簡單跨平(ping)臺橫向比較,大量的(de)紋理(li)映(ying)射單元是GPU性能強(qiang)勁的(de)必(bi)要非充分條件。
光柵化處理(li)單(dan)元(yuan)(ROPs)主要負責游(you)戲(xi)中(zhong)的(de)光線和(he)反(fan)射(she)運算,兼顧AA、高分辨率、煙霧、火焰等(deng)效(xiao)果。游(you)戲(xi)里的(de)抗鋸齒和(he)光影(ying)效(xiao)果越(yue)厲害,對ROPs的(de)性能要求就越(yue)高,否則可能導致(zhi)幀數(shu)的(de)急劇(ju)下降(jiang)。NVIDIA的(de)ROPs單(dan)元(yuan)是和(he)流處理(li)器進(jin)行捆綁的(de),二者同比(bi)例增減。在AMD GPU中(zhong),ROPs單(dan)元(yuan)和(he)流處理(li)器單(dan)元(yuan)沒(mei)有直接(jie)捆綁關系。

▲英偉達(da)安(an)培內核SP、ROPs、TMU拆解

▲英偉達RTX 3080 GPU-Z參數(shu)
消(xiao)費GPU的(de)(de)實(shi)時(shi)(shi)光(guang)線追(zhui)蹤在2018年由英(ying)偉達的(de)(de)“圖(tu)靈(ling)”GPU首次(ci)引(yin)入,光(guang)追(zhui)單(dan)(dan)元(RT Cores)在此過程中發揮著(zhu)決定性的(de)(de)作(zuo)用。圖(tu)靈(ling)GPU的(de)(de)光(guang)追(zhui)單(dan)(dan)元支持邊界體(ti)積層次(ci)加(jia)速,實(shi)時(shi)(shi)陰影(ying)、環境光(guang)、照明和(he)反射,光(guang)追(zhui)單(dan)(dan)元和(he)光(guang)柵(zha)單(dan)(dan)元可以協同工作(zuo),進一步(bu)提高幀數和(he)陰影(ying)的(de)(de)真實(shi)感(gan)。
光(guang)追單(dan)元在英(ying)偉達的RTX光(guang)線追蹤技術、微(wei)軟DXR API、英(ying)偉達Optix API和Vulkan光(guang)追API的支持(chi)下可以充分(fen)發揮性(xing)能。擁有68個光(guang)追單(dan)元的RTX2080Ti在光(guang)線處(chu)理(li)性(xing)能上較無光(guang)追單(dan)元的GTX1080Ti強10倍。
張(zhang)量單(dan)元(yuan)(Tensor Core)在2017年由英偉達的(de)“伏特”GPU中被首(shou)次引(yin)入(ru)。張(zhang)量單(dan)元(yuan)主要用于實(shi)時深度學習,服務于人(ren)(ren)工智能,大型矩陣運算和(he)深度學習超級采樣(yang)(DLSS),可以帶(dai)來驚人(ren)(ren)的(de)游戲和(he)專業(ye)圖像顯(xian)示,同時提供基于云系統(tong)的(de)快速人(ren)(ren)工智能。

▲英(ying)偉達RTX2080Ti張量單(dan)元算力

▲英偉達圖靈GPU光追單元(yuan)運作流(liu)程

▲英偉達圖靈GPU張量單元提供多精度AI
GPU的API(Application Programming Interface)應用(yong)程(cheng)序接口(kou)發揮著連(lian)接應用(yong)程(cheng)序和顯卡驅(qu)動的橋梁作用(yong)。不過隨著系統(tong)優化的深入,API也可以直(zhi)接統(tong)籌管理高級語言、顯卡驅(qu)動和底層匯編(bian)語言。
3D API能(neng)夠(gou)讓編程(cheng)人(ren)員所設(she)(she)計的(de)3D軟(ruan)(ruan)件(jian)只需調動(dong)其API內的(de)程(cheng)序(xu),讓API自動(dong)和硬件(jian)的(de)驅動(dong)程(cheng)序(xu)溝通,啟動(dong)3D芯片內強大(da)的(de)3D圖形(xing)處理功能(neng),從(cong)而大(da)幅地提高3D程(cheng)序(xu)的(de)設(she)(she)計效率。同樣的(de),GPU廠家也(ye)可以根據API標準來(lai)設(she)(she)計GPU芯片,以達到在(zai)API調用硬件(jian)資源時的(de)最(zui)優(you)化,獲(huo)得更好的(de)性能(neng)。3D API可以實(shi)現不(bu)(bu)同廠家的(de)硬件(jian)、軟(ruan)(ruan)件(jian)最(zui)大(da)范圍兼容。如果沒有API,那(nei)么開發人(ren)員必須對(dui)(dui)不(bu)(bu)同的(de)硬件(jian)進行一對(dui)(dui)一的(de)編碼,這樣會帶來(lai)大(da)量的(de)軟(ruan)(ruan)件(jian)適配問題(ti)和編碼成本。
目前(qian)GPU API可(ke)以分為2大(da)陣營和若干其他類。2大(da)陣營分別是(shi)微軟的DirectX標準和KhronosGroup標準,其他類包括蘋果的Metal API、AMD的Mantle(地幔(man))API、英特爾的One API等(deng)。

▲微軟(ruan)DirectX和(he)Khronos Group API組(zu)合對(dui)比
DirectX是(shi)Direct eXtension的(de)(de)簡稱,作(zuo)為(wei)一(yi)種API,是(shi)由微軟公司(si)創建(jian)的(de)(de)多媒(mei)(mei)體編程(cheng)接口。DirectX可以讓以Windows為(wei)平(ping)臺的(de)(de)游(you)(you)戲(xi)或多媒(mei)(mei)體程(cheng)序獲得更高的(de)(de)執行效率(lv),加強3D圖形和聲音(yin)效果,并提供設(she)計人員一(yi)個共(gong)同的(de)(de)硬件(jian)驅動標準,讓游(you)(you)戲(xi)開發者不必為(wei)每一(yi)品(pin)牌的(de)(de)硬件(jian)來寫不同的(de)(de)驅動程(cheng)序,也降低用(yong)戶安裝(zhuang)及設(she)置硬件(jian)的(de)(de)復雜(za)度。DirectX已被廣泛使用(yong)于Windows操作(zuo)系統和Xbox主機的(de)(de)電子游(you)(you)戲(xi)開發。
OpenGL是Open Graphics Library的(de)(de)簡(jian)稱,是用于(yu)渲染2D、3D矢量圖形(xing)的(de)(de)跨語言、跨平臺的(de)(de)應用程(cheng)序編程(cheng)接(jie)口(kou)(API),相(xiang)比DirectX更加開放。這個接(jie)口(kou)由近(jin)350個不同的(de)(de)函數調(diao)用組成,用來繪制(zhi)從簡(jian)單的(de)(de)二(er)維圖形(xing)到復雜的(de)(de)三(san)維景象。OpenGL常用于(yu)CAD、虛擬現實、科學可視化程(cheng)序和電子游戲開發。
正是由于OpenGL的(de)開放(fang),所以(yi)它(ta)可以(yi)被運行在(zai)Windows、MacOS、Linux、安(an)卓、iOS等多個操作(zuo)系統上,學(xue)習門檻也比DirectX更低。但是,效率低是OpenGL的(de)主要缺點。

▲DirectX和OpenGL特點對比(bi)
Metal是Apple在(zai)(zai)2014年(nian)創建(jian)的(de)接(jie)近底(di)(di)層的(de),低開銷的(de)硬(ying)件(jian)加(jia)速(su)3D圖形和(he)計算著色器API。Metal在(zai)(zai)iOS 8中首次亮相(xiang)(xiang)。Metal在(zai)(zai)一個(ge)API中結合了(le)類似(si)于OpenGL和(he)OpenCL的(de)功能。它旨在(zai)(zai)通(tong)過(guo)為(wei)iOS,iPadOS,macOS和(he)tvOS上的(de)應(ying)用(yong)程序提(ti)(ti)供(gong)對GPU硬(ying)件(jian)的(de)底(di)(di)層訪問(wen)來提(ti)(ti)高(gao)性能。相(xiang)(xiang)較(jiao)于OpenGL ES,Metal減少了(le)10倍(bei)的(de)代碼擁擠,提(ti)(ti)供(gong)了(le)更好的(de)解決方(fang)案,并將會(hui)在(zai)(zai)蘋(pin)果設(she)備中取(qu)代OpenGL。Metal也(ye)支持英(ying)特爾HD和(he)IRIS系列GPU、AMD的(de)GCN和(he)RDNA GPU、NVIDIA GPU。Metal也(ye)是可以使(shi)用(yong)Swift或Objective-C編(bian)程語言調(diao)用(yong)的(de)面向對象的(de)API。GPU的(de)全(quan)部操作是通(tong)過(guo)Metal著色語言控制的(de)。
2017年,蘋果推出了Metal的(de)升級版Metal2,兼(jian)容前代Metal硬(ying)件,支持iOS11,MacOS和(he)(he)tvOS11。Metal2可以在(zai)Xcode中(zhong)更有效(xiao)地進(jin)行配置和(he)(he)調試(shi),加快機器學習(xi)速(su)度,降低CPU工作(zuo)量,在(zai)MacOS上(shang)支持VR,充分發揮A11 GPU的(de)特性。
Vulkan是一種(zhong)低(di)開(kai)銷,跨(kua)平(ping)臺的3D圖(tu)像和(he)計算API。Vulkan面向跨(kua)所有平(ping)臺的高(gao)性能實時3D圖(tu)形應用(yong)程序(xu),如視頻游戲和(he)交互(hu)式媒體(ti)。與OpenGL,Direct3D 11和(he)Metal相比,Vulkan旨(zhi)在提(ti)供更高(gao)的性能和(he)更平(ping)衡的CPU/GPU用(yong)法。除了較低(di)的CPU使用(yong)外,Vulkan還(huan)旨(zhi)在使開(kai)發(fa)人員更好(hao)地在多核CPU中分配工作。
Vulkan源自(zi)并基于AMD的(de)(de)Mantle API組(zu)件,最初的(de)(de)版本(ben)被(bei)稱為OpenGL的(de)(de)下(xia)一(yi)代(dai)。最新的(de)(de)Vulkan1.2發布于2020年1月(yue)15日,該(gai)版本(ben)整合了23個額外(wai)經(jing)常被(bei)使用的(de)(de)Vulkan拓展。

▲Metal與OpenGL性能對(dui)比

▲OpenGL和Vulkan對比
軟件生態(tai)方(fang)面,GPU無(wu)法單獨工(gong)作,必須由CPU進行控制調用才能(neng)工(gong)作,而CPU在處理大量類型一致的(de)數據時,則可調用GPU進行并行計算。所以,GPU的(de)生態(tai)和CPU的(de)生態(tai)是高度相關的(de)。
近(jin)年(nian)來,在摩爾(er)定(ding)律演(yan)進的放(fang)緩和(he)GPU在通用計(ji)算(suan)領域的高速發(fa)展的此消彼長(chang)之下,通用圖形處理(li)器(qi)(GPGPU)逐(zhu)漸“反客為主(zhu)”,利用GPU來計(ji)算(suan)原本(ben)由CPU處理(li)的通用計(ji)算(suan)任務。
目前,各(ge)個GPU廠商的(de)GPGPU的(de)實(shi)現方法不盡相同,如NVIDIA使用的(de)CUDA(compute unified device architecture)技(ji)術(shu)、原ATI的(de)ATI Stream技(ji)術(shu)、Open CL聯盟、微(wei)軟的(de)DirectCompute技(ji)術(shu)。這些技(ji)術(shu)可(ke)以讓GPU在媒體編碼加(jia)速、視頻補(bu)幀(zhen)與畫面優化、人工智(zhi)能(neng)與深度(du)學習(xi)、科研(yan)領域、超級計(ji)算機等(deng)方面發揮異構加(jia)速的(de)優勢。以上4種技(ji)術(shu)中,只(zhi)有OpenCL支持跨平(ping)臺和開放標注的(de)特性,還可(ke)以使用專門的(de)可(ke)編程電路來加(jia)速計(ji)算,業界支持非常廣泛。

▲DirectX和(he)OpenGL生態對比

▲OpenCL聯盟生態(tai)
GPU根(gen)據接入(ru)方(fang)式(shi)(shi)可(ke)以(yi)劃(hua)分為(wei)獨(du)立(li)(li)(li)GPU和集成(cheng)(cheng)GPU。獨(du)立(li)(li)(li)GPU一(yi)(yi)般封(feng)裝(zhuang)在獨(du)立(li)(li)(li)的(de)顯(xian)卡電路板(ban)上,擁有獨(du)立(li)(li)(li)顯(xian)存,而(er)集成(cheng)(cheng)GPU常(chang)和CPU共(gong)用一(yi)(yi)個Die,共(gong)享(xiang)(xiang)系統內存。GPU根(gen)據接入(ru)方(fang)式(shi)(shi)可(ke)以(yi)劃(hua)分為(wei)獨(du)立(li)(li)(li)GPU和集成(cheng)(cheng)GPU。獨(du)立(li)(li)(li)GPU一(yi)(yi)般封(feng)裝(zhuang)在獨(du)立(li)(li)(li)的(de)顯(xian)卡電路板(ban)上,擁有獨(du)立(li)(li)(li)顯(xian)存,而(er)集成(cheng)(cheng)GPU常(chang)和CPU共(gong)用一(yi)(yi)個Die,共(gong)享(xiang)(xiang)系統內存。

▲GPU的主要分類

▲獨立GPU

▲集成(cheng)GPU Die
GPU顯(xian)存(cun)是用(yong)來存(cun)儲(chu)顯(xian)卡芯片處(chu)理過或者即將提取的渲染數據,是GPU正常運作不可(ke)(ke)或缺的核心部件之(zhi)一。GPU的顯(xian)存(cun)可(ke)(ke)以分為獨立顯(xian)存(cun)和集(ji)(ji)成顯(xian)存(cun)兩(liang)種(zhong)。目前,獨立顯(xian)存(cun)主要(yao)采用(yong)GDDR3、GDDR5、GDDR5X、GDDR6,而集(ji)(ji)成顯(xian)存(cun)主要(yao)采用(yong)DDR3、DDR4。服(fu)務器GPU偏好使用(yong)Chiplet形式的HBM顯(xian)存(cun),最大(da)化吞吐量。
集成顯(xian)存受(shou)制(zhi)于64位操作系統的限制(zhi),即(ji)便組成2通(tong)道甚(shen)至(zhi)4通(tong)道,與獨立顯(xian)存的帶寬仍有相(xiang)當差距。通(tong)常這也造成了獨立GPU的性能強于集成GPU。

▲顯存的主要分類

▲獨立(li)顯存的工作方式(shi)

▲獨立顯存的工作方(fang)式
集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)是指(zhi)一(yi)(yi)般不帶顯存(cun)(cun),而是使用(yong)(yong)系(xi)統(tong)的(de)(de)一(yi)(yi)部分(fen)(fen)主內存(cun)(cun)作為顯存(cun)(cun)的(de)(de)顯卡(ka)(ka)(ka)(ka)(ka)。集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)可以(yi)(yi)被整(zheng)(zheng)合(he)進主板作為北橋芯片(pian)的(de)(de)一(yi)(yi)部分(fen)(fen),也可以(yi)(yi)和CPU集(ji)(ji)成(cheng)在(zai)同一(yi)(yi)個(ge)Die中(zhong)。集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)的(de)(de)顯存(cun)(cun)一(yi)(yi)般根據系(xi)統(tong)軟件和應(ying)用(yong)(yong)軟件的(de)(de)需(xu)求(qiu)自動調(diao)整(zheng)(zheng)。如果顯卡(ka)(ka)(ka)(ka)(ka)運(yun)行需(xu)要占用(yong)(yong)大量內存(cun)(cun)空(kong)間,那么(me)整(zheng)(zheng)個(ge)系(xi)統(tong)運(yun)行會受(shou)限,此(ci)外系(xi)統(tong)內存(cun)(cun)的(de)(de)頻(pin)率通常比獨立顯卡(ka)(ka)(ka)(ka)(ka)的(de)(de)顯存(cun)(cun)低很(hen)多,因此(ci)集(ji)(ji)成(cheng)顯卡(ka)(ka)(ka)(ka)(ka)的(de)(de)性能比獨立顯卡(ka)(ka)(ka)(ka)(ka)要遜色一(yi)(yi)些。
獨(du)立(li)(li)顯卡是將(jiang)顯示(shi)芯片(pian)及相關(guan)器件(jian)制作(zuo)成(cheng)一(yi)個獨(du)立(li)(li)于電腦主板的(de)板卡,成(cheng)為(wei)專業的(de)圖像處(chu)(chu)理硬件(jian)設備。獨(du)立(li)(li)顯卡因為(wei)具備高(gao)位寬(kuan)、高(gao)頻獨(du)立(li)(li)顯存和更多(duo)的(de)處(chu)(chu)理單元,性能(neng)遠(yuan)比集成(cheng)顯卡優越,不僅(jin)可(ke)用于一(yi)般性的(de)工作(zuo),還具有完善的(de)2D效果(guo)和很強的(de)3D水平,因此常應用于高(gao)性能(neng)臺(tai)式(shi)機和筆記本電腦,主要的(de)接口為(wei)PCIe。
如(ru)今,獨立顯(xian)卡(ka)與集成顯(xian)卡(ka)已經不是2個完全割(ge)裂,各自(zi)為營(ying)的(de)圖像處理單元了。二者在(zai)微(wei)軟(ruan)DX12的(de)支持(chi)下(xia)也可(ke)以實現(xian)獨核顯(xian)交(jiao)(jiao)火,同時AMD和NVIDIA的(de)顯(xian)卡(ka)也可(ke)實現(xian)混合(he)交(jiao)(jiao)火。

▲集成顯(xian)卡(ka)和獨立顯(xian)卡(ka)對比
GPU對比CPU:從芯片設(she)計(ji)(ji)思路看(kan),CPU是(shi)以低(di)延遲為(wei)導(dao)向(xiang)的計(ji)(ji)算(suan)單(dan)元(yuan),通常由(you)專為(wei)串行(xing)處理而(er)優化的幾(ji)個核心組(zu)(zu)成(cheng),而(er)GPU是(shi)以吞吐量為(wei)導(dao)向(xiang)的計(ji)(ji)算(suan)單(dan)元(yuan),由(you)數以千(qian)計(ji)(ji)的更小(xiao)、更高(gao)效的核心組(zu)(zu)成(cheng),專為(wei)并行(xing)多(duo)任務設(she)計(ji)(ji)。
CPU和GPU設計思(si)路的不(bu)(bu)同導致微(wei)架構的不(bu)(bu)同。CPU的緩存大于GPU,但在線程數,寄存器(qi)數和SIMD(單指令多數據流)方面(mian)GPU遠強于CPU。
微架構(gou)的(de)不同最終(zhong)導(dao)致CPU中(zhong)大部(bu)分(fen)的(de)晶(jing)體(ti)管(guan)用(yong)于(yu)構(gou)建控(kong)制電路和緩(huan)存,只有少部(bu)分(fen)的(de)晶(jing)體(ti)管(guan)完成實(shi)際的(de)運算工作(zuo),功能模塊(kuai)很多,擅長分(fen)支預測等復雜(za)操(cao)作(zuo)。GPU的(de)流處理器和顯存控(kong)制器占據(ju)了絕大部(bu)分(fen)晶(jing)體(ti)管(guan),而控(kong)制器相對(dui)簡單(dan),擅長對(dui)大量數(shu)據(ju)進行(xing)簡單(dan)操(cao)作(zuo),擁有遠勝于(yu)CPU的(de)強大浮點計算能力。

▲GPU和CPU的核心設(she)計思路對比

▲GPU和CPU的核心對(dui)比(bi)
后摩爾時代,隨著GPU的可編程性不斷增強,GPU的應用能力已經遠遠超出了圖形渲染,部份GPU被用于圖形渲染以外領域的計算成為GPGPU。與此同時,CPU為了追求(qiu)通用(yong)(yong)性,只(zhi)有少部分(fen)晶體管被(bei)用(yong)(yong)于完成(cheng)運(yun)算(suan),而大(da)部分(fen)晶體管被(bei)用(yong)(yong)于構(gou)建控制電(dian)路和高速緩存。但是由(you)于GPU對(dui)CPU的(de)(de)依附性以(yi)及(ji)GPU相較CPU更(geng)高的(de)(de)開發難度,所以(yi)GPU不可能完全(quan)取代CPU。我們認為未來計算(suan)架(jia)構(gou)將是GPU+CPU的(de)(de)異構(gou)運(yun)算(suan)體系。
在GPU+CPU的(de)(de)(de)異構運算中,GPU和CPU之間可以(yi)無(wu)縫地(di)共享數據(ju),而(er)無(wu)需內存拷貝(bei)和緩存刷新(xin),因為(wei)任務(wu)以(yi)極低的(de)(de)(de)開銷被(bei)調度到合適的(de)(de)(de)處(chu)理(li)器上。CPU憑借多個專為(wei)串行處(chu)理(li)而(er)優化的(de)(de)(de)核心運行程序(xu)的(de)(de)(de)串行部份,而(er)GPU使(shi)用數以(yi)千(qian)計的(de)(de)(de)小(xiao)核心運行程序(xu)的(de)(de)(de)并行部分(fen),充分(fen)發揮協同效應(ying)和比較優勢。
異(yi)構(gou)運算除了(le)需要(yao)相關(guan)的(de)CPU和GPU等硬件支持(chi),還需要(yao)能將它們有效組織(zhi)的(de)軟件編程。OpenCL是(OpenComputing Language)的(de)簡稱(cheng),它是第一個為(wei)異(yi)構(gou)系統的(de)通用并(bing)行(xing)編程而產生的(de)統一的(de)、免費(fei)的(de)標準。OpenCL支持(chi)由多(duo)核的(de)CPU、GPU、Cell架構(gou)以(yi)及(ji)信號處理器(qi)(DSP)等其(qi)他并(bing)行(xing)設備組成的(de)異(yi)構(gou)系統。

▲OpenCL異構(gou)(gou)運算(suan)構(gou)(gou)成

▲異構運算下的GPU工作流程
GPU與ASIC和FPGA的對比:數(shu)據、算(suan)力(li)和算(suan)法是(shi)AI三大要素,CPU配合加速芯(xin)片(pian)的模式成為典型的AI部(bu)署方(fang)案,CPU提供算(suan)力(li),加速芯(xin)片(pian)提升算(suan)力(li)并助推算(suan)法的產(chan)生。常見的AI加速芯(xin)片(pian)包括GPU、FPGA、ASIC三類。
GPU用于大(da)量(liang)重復計(ji)(ji)算,由數以千(qian)計(ji)(ji)的(de)更小、更高效(xiao)的(de)核心組成大(da)規(gui)模(mo)并行計(ji)(ji)算架(jia)構,配備GPU的(de)服(fu)務器(qi)可取(qu)代(dai)數百臺(tai)通用CPU服(fu)務器(qi)來處理HPC和AI業務。
FPGA是一(yi)種半(ban)定制(zhi)芯(xin)片,靈活性強集(ji)成(cheng)(cheng)度高,但運(yun)算量(liang)小,量(liang)產成(cheng)(cheng)本高,適用(yong)于(yu)算法更新頻(pin)繁(fan)或(huo)市場(chang)規模小的(de)專(zhuan)用(yong)領域(yu)。
ASIC專(zhuan)用性(xing)強,市場需(xu)求量大(da)的專(zhuan)用領域,但開發周期較長(chang)且(qie)難度極高。
在AI訓練(lian)階段需要大量(liang)數(shu)據(ju)運算,GPU預計占64%左(zuo)右市(shi)場(chang)份(fen)額,FPGA和ASIC分(fen)(fen)別(bie)為22%和14%。推理(li)階段無需大量(liang)數(shu)據(ju)運算,GPU將占據(ju)42%左(zuo)右市(shi)場(chang),FPGA和ASIC分(fen)(fen)別(bie)為34%和24%。

▲不同(tong)應用(yong)場景AI芯片(pian)性能需求(qiu)和具體指標

▲GPU、FPGA、ASIC AI芯片對比
在(zai)PC誕生之初,并不(bu)存(cun)在(zai)GPU的(de)(de)(de)概念,所有(you)的(de)(de)(de)圖(tu)形和(he)多(duo)媒體(ti)運算(suan)都由CPU負責。但是(shi)(shi)由于X86 CPU的(de)(de)(de)暫存(cun)器數(shu)量(liang)有(you)限,適合(he)串行計算(suan)而不(bu)適合(he)并行計算(suan),雖然以(yi)英特爾為代(dai)表的(de)(de)(de)廠商(shang)多(duo)次推出SSE等多(duo)媒體(ti)拓展指(zhi)令集(ji)試圖(tu)彌補CPU的(de)(de)(de)缺(que)陷(xian),但是(shi)(shi)僅僅在(zai)指(zhi)令集(ji)方面的(de)(de)(de)改進不(bu)能(neng)起到根本效果(guo),所以(yi)誕生了圖(tu)形加(jia)速器作為CPU的(de)(de)(de)輔助運算(suan)單元。
GPU的發展史概括說來就(jiu)是NVIDIA、AMD(ATI)的發展史,在此過程中(zhong)曾經的GPU巨(ju)頭Imagination、3dfx、東芝等紛紛被(bei)后輩(bei)超越。如今(jin)獨(du)立顯卡(ka)領域主(zhu)要由英偉(wei)達和AMD控制(zhi),而集(ji)成顯卡(ka)領域由英特爾(er)和AMD控制(zhi)。

▲GPU的發展史
英偉達的(de)GPU架構(gou)自2008年以(yi)來幾(ji)乎一直保持著每(mei)(mei)2年一次大(da)更(geng)(geng)(geng)新(xin)的(de)節奏,帶來更(geng)(geng)(geng)多(duo)更(geng)(geng)(geng)新(xin)的(de)運(yun)算(suan)(suan)(suan)單元(yuan)和更(geng)(geng)(geng)好(hao)的(de)API適(shi)配性。在(zai)每(mei)(mei)次的(de)大(da)換代(dai)(dai)之間,不乏(fa)有一次的(de)小升級,如(ru)采(cai)用開(kai)普(pu)勒二代(dai)(dai)微架構(gou)的(de)GK110核心相較于采(cai)用初代(dai)(dai)開(kai)普(pu)勒微架構(gou)的(de)GK104核心,升級了(le)(le)顯卡智能(neng)動(dong)態超頻技術(shu),CUDA運(yun)算(suan)(suan)(suan)能(neng)力提升至3.5代(dai)(dai),極致流式多(duo)處理(li)器(SMX)的(de)浮(fu)點運(yun)算(suan)(suan)(suan)單元(yuan)提升8倍,加入(ru)了(le)(le)Hyper-Q技術(shu)提高GPU的(de)利用率(lv)并削減了(le)(le)閑置,更(geng)(geng)(geng)新(xin)了(le)(le)網格管理(li)單元(yuan)(Grid Management Unit),為動(dong)態并行技術(shu)提供了(le)(le)靈(ling)活性。
英(ying)偉(wei)達GPU微架構的(de)持續更新,使英(ying)偉(wei)達GPU的(de)能效(xiao)提升了數十倍(bei),占(zhan)領了獨立顯(xian)卡技術(shu)的(de)制高點。

▲2008-2020英偉達GPU微架(jia)構進(jin)化
圖形API在GPU的運算過程中發揮著連接高級語言、顯(xian)(xian)卡驅動乃至(zhi)底層匯編語言的作用,充當(dang)GPU運行(xing)和開發的“橋(qiao)梁”和“翻譯官”。微軟DirectX標準可以劃分為顯(xian)(xian)示(shi)部份、聲音部份、輸入部分和網絡(luo)部分,其(qi)中與GPU具(ju)有最直接關系的是顯(xian)(xian)示(shi)部分。顯(xian)(xian)示(shi)部份可分為DirectDraw和Direct3D等標準,前者(zhe)主(zhu)(zhu)要負責2D圖像加速,后者(zhe)主(zhu)(zhu)要負責3D效果顯(xian)(xian)示(shi)。
從(cong)1995年發布(bu)的(de)(de)初代(dai)DirectX 1.0開(kai)始微軟的(de)(de)DirectX已經更新到了DirectX 12。在此過程(cheng)中,DirectX不斷(duan)完善(shan)對各(ge)類GPU的(de)(de)兼容,增(zeng)加開(kai)發人員的(de)(de)權限,提(ti)高(gao)GPU的(de)(de)顯示質量和運行幀數(shu)。
DirectX一般和Windows操(cao)作系統同步更新,如Windows 7推(tui)出了DX11、Windows 10推(tui)出了DX12。

▲1998-2014微軟DirectX進化
GPU和(he)CPU都是以先進制(zhi)程為導向的(de)數字芯片。先進制(zhi)程可以在(zai)控制(zhi)發熱和(he)電能(neng)(neng)(neng)消耗的(de)同時,在(zai)有限的(de)Die中(zhong)放入盡可能(neng)(neng)(neng)多的(de)晶體管,提高GPU的(de)性能(neng)(neng)(neng)和(he)能(neng)(neng)(neng)效。
NVIDIA的(de)GPU從(cong)2008年GT200系列的(de)65納(na)米制程(cheng)歷經12年逐步(bu)升級到了RTX3000系列的(de)7/8納(na)米制程(cheng),在整個過程(cheng)中,晶體管數(shu)量提升了20多(duo)倍(bei),逐步(bu)確(que)立(li)了在獨立(li)GPU的(de)市場龍(long)頭地(di)位。
同時在整個過程中,NVIDIA一(yi)直堅持不采用(yong)IDM的模式,而(er)是讓(rang)臺(tai)積電負責GPU的制(zhi)造,自生專注于芯(xin)片設(she)計,充分發揮(hui)比較優勢。

▲2008-2020英偉(wei)達GPU主(zhu)要制程(cheng)和晶體管數進化
根據前12年的GPU發展軌跡來看,GPU微架構的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更多”是(shi)(shi)指晶體(ti)管數量(liang)(liang)和運(yun)(yun)算(suan)單(dan)(dan)元(yuan)(yuan)(yuan)的(de)(de)增(zeng)加,其中包括(kuo)流(liu)處(chu)理(li)器(qi)單(dan)(dan)元(yuan)(yuan)(yuan)、紋理(li)單(dan)(dan)元(yuan)(yuan)(yuan)、光(guang)柵單(dan)(dan)元(yuan)(yuan)(yuan)等數量(liang)(liang)上(shang)升(sheng)。“更專”是(shi)(shi)指除了(le)常規的(de)(de)計(ji)算(suan)單(dan)(dan)元(yuan)(yuan)(yuan),GPU還會增(zeng)加新的(de)(de)運(yun)(yun)算(suan)單(dan)(dan)元(yuan)(yuan)(yuan)。例如,英偉達的(de)(de)圖靈(ling)架(jia)構(gou)相較(jiao)于帕斯卡(ka)架(jia)構(gou)新增(zeng)加了(le)光(guang)追(zhui)單(dan)(dan)元(yuan)(yuan)(yuan)和張(zhang)量(liang)(liang)單(dan)(dan)元(yuan)(yuan)(yuan),分別處(chu)理(li)實時光(guang)線(xian)追(zhui)蹤和人工智能(neng)(neng)運(yun)(yun)算(suan)。“更智能(neng)(neng)”是(shi)(shi)指GPU的(de)(de)AI運(yun)(yun)算(suan)能(neng)(neng)力上(shang)升(sheng)。如第三代的(de)(de)張(zhang)量(liang)(liang)單(dan)(dan)元(yuan)(yuan)(yuan)相較(jiao)于上(shang)代在吞吐量(liang)(liang)上(shang)提升(sheng)了(le)1倍。

▲英偉達GTX1080對(dui)比RTX2080

▲英偉達伏(fu)特微架構對比安培微架構AI加速(su)性(xing)能(neng)

▲英偉達安培架構提升
綜合(he)分(fen)析微軟的(de)(de)DirectX12、蘋果的(de)(de)Metal2、Khronos Group的(de)(de)Vulkan API分(fen)別相(xiang)較(jiao)于(yu)前代DirectX11、Metal、OpenGL的(de)(de)升級(ji)(ji),我們(men)認為GPU API的(de)(de)升級(ji)(ji)趨勢是提高GPU的(de)(de)運行效率、增(zeng)加高級(ji)(ji)語言和(he)顯(xian)卡驅(qu)動之間的(de)(de)連接、優化視覺特效等。其(qi)中,提供更底(di)層(ceng)的(de)(de)支持:統籌高級(ji)(ji)語言、顯(xian)卡驅(qu)動和(he)底(di)層(ceng)語言是幾乎所有API升級(ji)(ji)的(de)(de)主要(yao)方向。
不過提供更(geng)(geng)底層(ceng)的支持只是更(geng)(geng)高的幀數或(huo)更(geng)(geng)好的畫質的必要非充(chong)分(fen)條件(jian)(jian)。在整個軟(ruan)件(jian)(jian)的開發(fa)(fa)過程中,軟(ruan)件(jian)(jian)開發(fa)(fa)商需要比驅(qu)動程序(xu)和(he)系統(tong)層(ceng)更(geng)(geng)好地(di)調度硬(ying)件(jian)(jian)資源,才(cai)能(neng)充(chong)分(fen)發(fa)(fa)揮底層(ceng)API的效果。
在顯示質量(liang)方面,DirectX 12 Ultimate采用當下最新(xin)的(de)圖(tu)形(xing)硬(ying)件技術,支持光(guang)線(xian)追蹤、網格著(zhu)色(se)器和可變速率著(zhu)色(se),PC和Xbox共用同一個(ge)API,堪稱次世代(dai)游戲的(de)全新(xin)黃金標(biao)準(zhun)。

▲非底層(ceng)(ceng)DirectX 11對比底層(ceng)(ceng)DirectX 12

▲DirectX 12 Ultimate新特(te)性(xing)
GPU制造升級趨勢:以先進制程為導向。GPU性能的(de)(de)(de)三(san)大決定(ding)因(yin)素為(wei)主(zhu)頻、微(wei)架(jia)構、API。這些因(yin)素中主(zhu)頻通常是由GPU的(de)(de)(de)制(zhi)程(cheng)(cheng)決定(ding)的(de)(de)(de)。制(zhi)程(cheng)(cheng)在過去通常表示晶體管或柵極長度(du)等(deng)特(te)征尺寸,不過出于營銷(xiao)的(de)(de)(de)需要,現在的(de)(de)(de)制(zhi)程(cheng)(cheng)已經偏離了本意,因(yin)此單純比較納米數沒有意義。按英特(te)爾的(de)(de)(de)觀點,每平方(fang)毫米內的(de)(de)(de)晶體管數(百萬)更(geng)能衡(heng)量制(zhi)程(cheng)(cheng)。據此,臺(tai)積電和三(san)星(xing)的(de)(de)(de)7nm工(gong)藝更(geng)接近英特(te)爾的(de)(de)(de)10nm工(gong)藝。
先(xian)進的(de)制程可以降低每(mei)一個(ge)晶體(ti)(ti)管的(de)成(cheng)本,提升晶體(ti)(ti)管密度,在(zai)GPU Die體(ti)(ti)積不(bu)變(bian)下實現更(geng)高的(de)性能(neng);先(xian)進制程可以提升處理器的(de)效能(neng),在(zai)性能(neng)不(bu)變(bian)的(de)情況下,減少發(fa)(fa)熱或在(zai)發(fa)(fa)熱不(bu)變(bian)的(de)情況下,通(tong)過提升主頻來拉高性能(neng)。
先進制程的(de)主(zhu)要目(mu)的(de)是降低平面結構帶來的(de)漏電率問題(ti),提升方案可(ke)以通過(guo)改變工藝(yi),如采用FinFET(鰭(qi)式場(chang)效應晶(jing)體管)或GAA(環繞式柵(zha)極);或采用特殊材(cai)料,如FD-SOI(基于SOI的(de)超(chao)薄絕緣(yuan)層(ceng)上硅體技術)。

▲先進(jin)制程工(gong)藝之FinFET

▲英特爾10nm先進制程(cheng)帶來(lai)的性能(neng)和效(xiao)能(neng)提升
GPU制造升級趨勢:Chiplet化。高位寬內(nei)存(cun)(HBM)是(shi)小(xiao)芯片(pian)(Chiplet)在GPU中的常見應(ying)用(yong)。HBM是(shi)一(yi)種高速計算機存(cun)儲(chu)器3D堆棧SDRAM接口。首款HBM于2013年(nian)推出,第二代HBM2已于2016年(nian)被JEDEC接受。目前,HBM主(zhu)要應(ying)用(yong)在高端獨立顯卡(ka)和服務器顯卡(ka)。
HBM通過(guo)3D堆(dui)疊4個(ge)DRAM Die和(he)1片(pian)邏輯Die組(zu)成一(yi)個(ge)Chiplet,其中(zhong)(zhong)每片(pian)DRAM具(ju)有(you)(you)2個(ge)128位(wei)(wei)通道(dao),通過(guo)TSV(硅通孔)相(xiang)連(lian)。所(suo)以,一(yi)片(pian)Chiplet總共8個(ge)128位(wei)(wei)通道(dao),總位(wei)(wei)寬1024比(bi)特(te)。每片(pian)Chiplet又與(yu)GPU封(feng)裝(zhuang)在同一(yi)中(zhong)(zhong)介層(Interposer)連(lian)接GPU芯片(pian)。相(xiang)比(bi)之下,GDDR5內(nei)存的(de)(de)總線(xian)寬度為32位(wei)(wei),帶(dai)有(you)(you)512位(wei)(wei)內(nei)存接口的(de)(de)顯卡(ka)也只(zhi)有(you)(you)16個(ge)通道(dao),而(er)且采用傳統的(de)(de)FBGA封(feng)裝(zhuang)。HBM與(yu)GDDR5相(xiang)比(bi),每GB的(de)(de)表(biao)面積減少94%,每GB/S帶(dai)寬的(de)(de)能效提(ti)升(sheng)2倍(bei)多。
HBM支持最(zui)多每個Chiplet 4GB的存(cun)儲(chu),HBM2在HBM的基(ji)礎上(shang)將每片(pian)Chiplet的最(zui)大容量提(ti)升至了8GB,顯存(cun)主頻(pin)提(ti)升1倍,同(tong)時總(zong)位寬保(bao)持不(bu)變。

▲HBM的GPU應用

▲GDDR5對比HBM

▲HBM先進封裝結構
GPU制造(zao)可分為(wei)IDM和Fab+Fabless。IDM集芯(xin)(xin)片設計、芯(xin)(xin)片制造(zao)、芯(xin)(xin)片封裝和測試等多個產業鏈環節于一(yi)身。英(ying)特(te)爾為(wei)IDM的代(dai)表。
Fabless只負責芯片的(de)(de)電路設(she)計(ji)(ji)與銷售,將生(sheng)(sheng)產(chan)、測試、封裝(zhuang)等環節外包。蘋果(guo)和(he)(he)AMD為(wei)Fabless的(de)(de)代(dai)表。Foundry只負責制造,不負責芯片設(she)計(ji)(ji),可(ke)以(yi)同(tong)時為(wei)多家設(she)計(ji)(ji)公(gong)司(si)服務(wu),但受制于公(gong)司(si)間的(de)(de)競爭關(guan)系(xi)。臺積電為(wei)Foundry的(de)(de)代(dai)表。目前(qian)英特爾(er)(er)GPU落后的(de)(de)主要原(yuan)因是(shi)GPU制程的(de)(de)落后,根(gen)本原(yuan)因是(shi)英特爾(er)(er)受困于IDM運作模式。隨著28納米以(yi)下先進制程的(de)(de)發展,芯片的(de)(de)制造成(cheng)本和(he)(he)設(she)計(ji)(ji)成(cheng)本成(cheng)指數(shu)級上升。同(tong)時,一(yi)條12英寸晶(jing)圓的(de)(de)生(sheng)(sheng)產(chan)線從建設(she)到(dao)生(sheng)(sheng)產(chan)的(de)(de)周期(qi)約2年,投資至(zhi)少30-50億美元,資本支出占(zhan)比80%,整體風(feng)險非常(chang)大(da)。英特爾(er)(er)以(yi)有(you)限(xian)的(de)(de)資源(yuan)不支持它持續(xu)的(de)(de)設(she)計(ji)(ji)和(he)(he)生(sheng)(sheng)產(chan)的(de)(de)的(de)(de)兩線作戰。
Fab+Fabless的(de)模式通過充分(fen)發揮比較優勢,分(fen)散(san)了(le)GPU設(she)計和制造的(de)風險,符合半導(dao)體(ti)分(fen)工的(de)大趨勢。

▲IDM與Fab+Fabless對比

▲芯片設(she)計(ji)費用趨勢(億美元(yuan))
過去20多年里,GPU的基本需(xu)(xu)求源(yuan)于視頻(pin)加速,2D/3D游戲(xi)。隨后(hou)GPU運用(yong)自身在(zai)并行處理(li)和通用(yong)計(ji)算(suan)(suan)(suan)的優勢,逐步開(kai)拓服(fu)務器、汽車、礦機、人(ren)工智能、邊緣計(ji)算(suan)(suan)(suan)等領(ling)域的衍(yan)生需(xu)(xu)求。雖然GPU無法(fa)離開(kai)CPU獨(du)立運作,但是在(zai)當前“云化”加速的時(shi)代,離開(kai)了(le)GPU的CPU也無法(fa)勝任(ren)龐大的計(ji)算(suan)(suan)(suan)需(xu)(xu)求。所以(yi)GPU和CPU組成了(le)異構運算(suan)(suan)(suan)體系(xi),從(cong)底層經(jing)由系(xi)統軟(ruan)件和驅動層支持(chi)著上(shang)層的各種應用(yong)。GPU已經(jing)成為(wei)了(le)專(zhuan)用(yong)計(ji)算(suan)(suan)(suan)時(shi)代的剛需(xu)(xu)。

▲現代(dai)云計算中GPU加速的剛需
二、GPU的全球格局
2020年全(quan)球GPU市場價(jia)值預計(ji)為(wei)(wei)254.1億美元(yuan),預計(ji)2027年將(jiang)達到1853.1億美元(yuan),年平(ping)均增(zeng)速為(wei)(wei)32.82%。按GPU的(de)類型進行劃分,市場可以細分為(wei)(wei)獨立、集(ji)成(cheng)(cheng)和混合。2019年,集(ji)成(cheng)(cheng)GPU占GPU市場的(de)主導地位,但是由于混合GPU同時擁有集(ji)成(cheng)(cheng)和專(zhuan)用GPU的(de)能(neng)力,所以混合細分市場預計(ji)實現(xian)最(zui)高復(fu)合增(zeng)長率。
按GPU的(de)(de)設備(bei)進行劃分,市(shi)場可細分為計算機、平板電腦、智能手機、游戲(xi)機、電視、其他。就收入而言(yan),智能手機細分市(shi)場占比(bi)最(zui)(zui)大,在未(wei)來(lai)也將保持這一趨(qu)勢(shi)。但是,由于醫療(liao)等其他設備(bei)中對小(xiao)型GPU的(de)(de)需求不斷增加,預計未(wei)來(lai)的(de)(de)年(nian)復合增長率將最(zui)(zui)高。
按GPU的行(xing)業進行(xing)劃分(fen),市(shi)場可細分(fen)為電子、IT與(yu)電信、國防與(yu)情(qing)報、媒體(ti)與(yu)娛樂、汽(qi)車、其他。由于GPU在設計(ji)和工程應用中的廣泛使用,預計(ji)汽(qi)車細分(fen)行(xing)業的年復合增(zeng)長率最高。
按GPU的地理區(qu)域劃(hua)分,市場(chang)可細分為北美(mei)、歐洲(zhou)、亞太(tai)(tai)和其他(ta)地區(qu)。亞太(tai)(tai)地區(qu)在2019年主(zhu)(zhu)導(dao)了全球GPU市場(chang),預計(ji)在整個預測期(qi)內將保(bao)持主(zhu)(zhu)導(dao)地位。

▲全球GPU市場規模預測(ce)

▲2015-2025全球前三GPU供應商營收總和(he)
全球GPU已經進入了寡頭壟斷的格局。在傳統GPU市場中,排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業收入。英偉達的收入占56%、AMD占26%、英特爾占18%。
在(zai)手機(ji)和平板(ban)(ban)GPU方面,聯發科、海思麒(qi)麟、三星(xing)Exynos的(de)GPU設(she)計主要基于公(gong)版ARM MaliGPU或(huo)PowerVR微(wei)架構。高通(tong)驍龍Adreno和蘋(pin)果A系列采用自研GPU微(wei)架構。2019Q2,ARM、高通(tong)、蘋(pin)果、Imagination科技(ji)、英特爾是全球智能手機(ji)和平板(ban)(ban)的(de)前(qian)五大(da)GPU供應商。同期ARM Mali在(zai)以上五大(da)GPU供應商中占(zhan)43%的(de)市場份(fen)(fen)額(e),高通(tong)Adreno占(zhan)36%的(de)份(fen)(fen)額(e),蘋(pin)果占(zhan)12%的(de)份(fen)(fen)額(e)。

▲2019前三家GPU供應商收(shou)入份(fen)額對比

▲2019 Q2手機(ji)和平板GPU供應商份額
1、英偉達
英偉(wei)(wei)達公(gong)司成立于1993年,于1999年率先推(tui)出“GPU”的(de)圖(tu)形(xing)解決方案(an)。公(gong)司主(zhu)(zhu)要(yao)設計(ji)游(you)戲和專業(ye)市(shi)場(chang)的(de)GPU,移(yi)動計(ji)算(suan)和自動駕駛汽車的(de)SoC,是GPU計(ji)算(suan)領域公(gong)認的(de)全球領導者。它主(zhu)(zhu)要(yao)的(de)GPU產線“GeForce”和AMD的(de)“Radeon”形(xing)成直接競爭。同時,英偉(wei)(wei)達為了(le)拓展移(yi)動游(you)戲平(ping)臺(tai)(tai),推(tui)出了(le)掌(zhang)機(ji)Shield、Shield平(ping)板(ban)、Shield電視盒子和云游(you)戲服(fu)務(wu)GeForce Now。目前,公(gong)司已經完成了(le)由芯(xin)片供應商向計(ji)算(suan)平(ping)臺(tai)(tai)的(de)轉型。
英偉達(da)的四大(da)增長驅動(dong)力(li)分別是(shi)游戲業務(wu)(wu)、數據中心業務(wu)(wu)、專業視覺(jue)業務(wu)(wu)、自動(dong)駕駛(shi)業務(wu)(wu),各業務(wu)(wu)的代表性GPU方案(an)分別是(shi)GeForce,DGX、EGX、HGX,Quadro、AGX。
英偉(wei)達(da)2021財年(nian)(nian)營收167億美元,其中游戲(xi)、數據中心(xin)、專業(ye)視覺(jue)、自(zi)動駕駛業(ye)務(wu)在2020財年(nian)(nian)分別貢獻了營收的(de)47%、40%、6%、3%。公司(si)繼2014年(nian)(nian)毛(mao)利(li)率突破50%后(hou),于2021財年(nian)(nian)毛(mao)利(li)率突破60%。

▲英偉達2021財年的(de)業務構成

▲英偉達的(de)主(zhu)要增長驅動力
英(ying)偉達(da)(da)的(de)游(you)(you)(you)(you)戲(xi)業務由(you)GeForce和Shield組成。其(qi)中(zhong)Shield面向(xiang)移動端和云(yun),GeForce面向(xiang)PC。游(you)(you)(you)(you)戲(xi)筆記本和云(yun)游(you)(you)(you)(you)戲(xi)是(shi)公(gong)司拓(tuo)展市場的(de)2大(da)方向(xiang)。GeForce是(shi)英(ying)偉達(da)(da)游(you)(you)(you)(you)戲(xi)業務的(de)核心。GeForce是(shi)全球最大(da)的(de)游(you)(you)(you)(you)戲(xi)平臺,擁有超過2億名玩(wan)家(jia)。在PC游(you)(you)(you)(you)戲(xi)領(ling)域,英(ying)偉達(da)(da)的(de)營收是(shi)其(qi)他主(zhu)要GPU供應(ying)商(shang)的(de)三(san)倍多。GeForce已(yi)經來到了RTX30系列,采用(yong)第二代NVIDIA RTX架構-NVIDIA安培架構,搭載全新的(de)RT Core、Tensor Core及流(liu)式(shi)多處理器,擁有RTX游(you)(you)(you)(you)戲(xi)、DLSS、G-SYNC、DirectX12等(deng)先進技(ji)術,可(ke)帶來逼真的(de)光線(xian)追蹤效果和先進的(de)AI性能。
除(chu)了PC游(you)戲(xi)(xi)市場,英偉(wei)達也向合作(zuo)(zuo)伙(huo)伴–任(ren)天堂Switch主(zhu)(zhu)機(ji)提供定制版(ban)Tegra SoC。作(zuo)(zuo)為合作(zuo)(zuo)的一部分,Shield主(zhu)(zhu)機(ji)可以暢享任(ren)天堂的游(you)戲(xi)(xi),GameStream串流游(you)戲(xi)(xi)和熱門游(you)戲(xi)(xi),實現(xian)4KHDR畫質,支持百度DuerOS對話式人工(gong)智能。
英(ying)(ying)偉(wei)達的數據中(zhong)心(xin)業務的技術根源是(shi)CUDA(統(tong)一計算設(she)備架構)。CUDA首次推出于2006年的G80核心(xin),隸屬(shu)于通用(yong)并行(xing)計算架構,創造了(le)GPGPU。在“安培”時代(dai),CUDA核心(xin)已經進化到了(le)8.0,被運用(yong)在幾乎所有(you)的英(ying)(ying)偉(wei)達產(chan)品(pin)線。
CUDA兼容DirectCompute、OpenCL等計算接口。與Direct3D、OpenGL等高級圖形(xing)API相(xiang)比,CUDA可以使開發(fa)者更容易(yi)使用GPU資(zi)源。當前,CUDA在廣義上既代(dai)表GPU的硬件平臺(tai)又代(dai)表GPU的軟件平臺(tai)。
在硬件平(ping)臺方面,CUDA包含了CUDA指令(ling)集以(yi)及(ji)GPU內(nei)部的并(bing)行計算(suan)引擎。GPU平(ping)臺的矢量運算(suan)如INT、FP32、FP64都由CUDA承擔。開發(fa)人員可以(yi)使用C語言和Fortran語言為(wei)CUDA編寫程(cheng)序。
在軟(ruan)件(jian)平臺方面(mian),基于CUDA的CUDA-X加速庫、工具(ju)和(he)(he)(he)科技集合,向(xiang)上對接(jie)不同(tong)的行(xing)業應用需求。在英偉(wei)達的軟(ruan)件(jian)棧(zhan)體系中(zhong),分為CUDA-X AI和(he)(he)(he)CUDA-X HPC,分別面(mian)向(xiang)AI和(he)(he)(he)HPC兩(liang)大領域(yu),可以(yi)在人(ren)工智能(neng)和(he)(he)(he)高性能(neng)計算方面(mian)提(ti)供遠超其他競(jing)品的性能(neng)。CUDA-X的開發者已經超過100萬。

▲英偉達(da)CUDA-X HPC

▲英(ying)偉達CUDA-X AI
英偉達數(shu)據中心的產品包括(kuo)適(shi)用于(yu)AI的DGX系統,適(shi)用于(yu)邊緣計算的EGX平臺(tai),適(shi)用于(yu)超算的HGX平臺(tai)、適(shi)用于(yu)數(shu)據處理的DPU、簡(jian)化深度學(xue)(xue)習,機器學(xue)(xue)習,高性(xing)能(neng)計算的NGC目錄。相關的GPU加速器有(you)采用安培(pei)架構的A100、A40,采用圖靈架構的T4、RTX6000、RTX8000,采用伏(fu)特架構的V100。
過去5個財(cai)年(nian)中(zhong)(zhong),英偉達(da)數據中(zhong)(zhong)心的營收從8.3億美(mei)(mei)元上升至(zhi)66.96億美(mei)(mei)元,年(nian)復合增速(su)69%。同(tong)時(shi),公司的注冊開發者超過200萬,與主(zhu)要的云供應(ying)商如谷歌(ge)、騰訊、阿里建立了(le)供應(ying)關(guan)系,世界500強超算中(zhong)(zhong)的份額從6%上升至(zhi)70%。

▲英偉達主要云合作伙伴

▲英偉達數據中心營(ying)收趨勢

▲英偉達在超(chao)算500強中份額
英(ying)(ying)偉達(da)專(zhuan)業(ye)視覺業(ye)務主要由Quadro產品線組成。Quadro在(zai)(zai)GeForce的基礎上加強了NVLink、GPU的通用(yong)(yong)計算性能和(he)顯存容量,擁有(you)Iray、Omniverse平臺、材質定(ding)義語(yu)言(yan)等特(te)有(you)技術。Quadro被(bei)廣(guang)泛應用(yong)(yong)在(zai)(zai)臺式工作(zuo)站、筆記本電腦、EGX服務器、虛(xu)擬(ni)工作(zuo)空間、云端、定(ding)制(zhi)化方(fang)案(an)中。英(ying)(ying)偉達(da)Quadro方(fang)案(an)有(you)超過(guo)50種(zhong)應用(yong)(yong)、4000萬設(she)計用(yong)(yong)戶(hu)和(he)2000萬企業(ye)用(yong)(yong)戶(hu),并正在(zai)(zai)不斷解鎖新市場(chang)。
在過去的(de)5個財年,英(ying)偉(wei)達專(zhuan)業視(shi)覺的(de)營收從8.35億(yi)美(mei)元(yuan)上升至(zhi)10.53億(yi)美(mei)元(yuan),年復(fu)合增(zeng)速6%。

▲英偉(wei)達專業視覺GPU加速合作伙伴

▲英偉達專業視(shi)覺營收(shou)趨勢

▲英偉達專業視覺方案
英偉達的汽車產品包括相關駕駛軟件、駕駛基礎設(she)計(ji)、AGX平臺(tai),提供訓(xun)練、模擬(ni)、智能駕駛艙體(ti)驗、高清(qing)地圖和定位等解決方案。在絕(jue)對(dui)性(xing)能方面,搭載4顆Drive AGX Origin的蔚來ADAM超(chao)算(suan)平臺(tai)支持L4以(yi)上自動駕駛,超(chao)過7個特斯拉(la)FSD算(suan)力總和。
不同(tong)于特斯拉自動駕(jia)駛追(zhui)求軟硬件(jian)的高度契合,英偉達的方案更追(zhui)求開放性。公司(si)在汽車領域的合作(zuo)伙(huo)伴以軟件(jian)服(fu)務(wu)和轎車居多,分(fen)別達到了(le)(le)76家(jia)和42家(jia)。同(tong)時,公司(si)與大眾(zhong)、豐田、本田、奔(ben)馳(chi)、寶(bao)馬、奧(ao)迪、沃爾沃、馬牌、滴滴、采埃孚(fu)、蔚(yu)來、小(xiao)鵬、圖森等世界知名公司(si)建(jian)立了(le)(le)強力(li)的生態。
在過去的5個財年,英(ying)偉達自動駕駛的營(ying)收從4.87億(yi)美(mei)元(yuan)上升至5.36億(yi)美(mei)元(yuan),年復合增速3%。

▲英偉達自動(dong)駕駛營收(shou)趨勢

▲英偉達(da)自(zi)動(dong)駕駛(shi)合作(zuo)伙伴(ban)分布數(shu)
2020年9月13日(ri),NVIDIA宣布以(yi)(yi)400億美元收購(gou)ARM。本次收購(gou)意義可以(yi)(yi)細分為以(yi)(yi)下(xia)5個方面(mian):
1. 創造AI時代的世界級計算公司,將(jiang)英偉達領先的AI計算平臺和ARM龐(pang)大(da)的CPU生態相結合;
2. 通過英偉達在移動端和(he)PC等大型(xing)終(zhong)端市場的科技拓展ARM的IP授權組合;
3. 加(jia)速(su)ARM的服(fu)務器CPU、數據中心、邊(bian)緣AI、IoT發展;
4. 將英偉達計算平臺(tai)的開發(fa)者(zhe)由200萬提(ti)升(sheng)至(zhi)超過1500萬;
5. 并(bing)購可以立即增(zeng)加英偉達的非(fei)(fei)GAAP毛利率和非(fei)(fei)GAAP每股收益;
合并后的英偉達將(jiang)把計算(suan)從云、智能手機、PC、自動(dong)駕駛車和機器人技術推進(jin)到(dao)了邊緣物(wu)聯網(wang),將(jiang)AI計算(suan)拓展到(dao)全球,在拓展大規(gui)模、高增長市場的同時加速創新。

▲英偉達從云到邊緣
2、全球GPU先驅:AMD
AMD是全球唯(wei)一可(ke)以同(tong)時提供高性(xing)能GPU和CPU的(de)企業。AMD的(de)顯卡來源于(yu)2006年(nian)并購的(de)ATI科技。在這之(zhi)后的(de)4年(nian)中,AMD繼續使用ATI作為顯卡品牌。直到2010年(nian),AMD才拋棄原ATI的(de)品牌命(ming)名(ming)方(fang)式(shi)。
目前,AMD同時提供獨(du)立GPU和集成GPU,其(qi)集成GPU主(zhu)要(yao)運用(yong)在Ryzen APU、嵌(qian)入式、半定制平臺(tai)中,獨(du)立GPU分為(wei)Radeon和Instinct系(xi)列,主(zhu)要(yao)用(yong)于游戲(xi)、專(zhuan)業視覺(jue)、服務器等(deng)應用(yong)。
過去六年,AMD的計算和(he)圖形(xing)收入的營收由18.05億(yi)美元(yuan)(yuan)上升至64.32億(yi)美元(yuan)(yuan),年復合增速29%。
未來五年(nian),AMD計劃成為高性(xing)能計算的(de)領導者,提供顛覆性(xing)的(de)CPU和GPU方案(an)。

▲AMD計算和(he)圖形(xing)部門營收

▲AMD GPU的(de)聚焦領(ling)域
AMD的(de)(de)集成GPU主(zhu)要(yao)被運(yun)用在(zai)臺(tai)式(shi)(shi)機和筆(bi)(bi)記本(ben)的(de)(de)APU產(chan)品中,和CPU組成異(yi)構運(yun)算(suan)單(dan)元(yuan)。臺(tai)式(shi)(shi)和筆(bi)(bi)記本(ben)APU的(de)(de)GPU部(bu)份(fen)共(gong)用微架構和核心技(ji)術,二者GPU的(de)(de)主(zhu)要(yao)差異(yi)在(zai)于TDP和處(chu)理單(dan)元(yuan)的(de)(de)數量,臺(tai)式(shi)(shi)強于筆(bi)(bi)記本(ben)。
“Renior”APU的(de)GPU繼續(xu)使用(yong)Vega微架構(gou),但受益于7納(na)米制程,每個(ge)處理單元效(xiao)能顯著提升。
7納米Vega的(de)提(ti)(ti)升(sheng)包括:數據網絡翻倍、優化低功耗狀態轉換、25%主(zhu)頻(pin)提(ti)(ti)升(sheng)、77%存儲位(wei)(wei)寬(kuan)提(ti)(ti)升(sheng)。這(zhe)些提(ti)(ti)升(sheng)帶來了在保持15W功耗不變的(de)前提(ti)(ti)下,每個計算單元59%的(de)性能提(ti)(ti)升(sheng)、1.79TFLOPS的(de)32位(wei)(wei)浮點(dian)峰(feng)值吞吐(tu)。
在3DMark Time Spy(DX12)的(de)(de)(de)跑(pao)分中,7納(na)米的(de)(de)(de)Ryzen 4800U的(de)(de)(de)GPU表現超過10納(na)米i7-1065G7,是14納(na)米i7-10710U的(de)(de)(de)2倍以上。

▲AMD “RENIOR”APU

▲AMD “RENIOR”APU內(nei)核解析

▲AMD “RENIOR”APU跑分對比
AMD的Radeon系(xi)列(lie)游戲獨(du)立(li)GPU按微架(jia)構推出時(shi)間(jian)依(yi)次遞減可以分(fen)為(wei)RX6000系(xi)列(lie)、RX5000系(xi)列(lie)、Radeon 7、 RX500系(xi)列(lie)。以上四(si)大(da)系(xi)列(lie)中,除RX500系(xi)列(lie)外均采用臺積電(dian)7納米制程。
2020年11月推出(chu)的(de)(de)(de)RDNA2微架構相較于(yu)前(qian)代RDNA絕對性能最高(gao)提升一倍,能效提高(gao)54%,支持(chi)DirectX12 Ultimate,硬件(jian)光線追蹤(zong)和可變速率著色器等先(xian)進(jin)技術(shu)。搭(da)載16GBGDDR6顯存和128MB InfinityCache高(gao)速緩存的(de)(de)(de)RX 6900XT的(de)(de)(de)游戲性能接近英偉達(da)的(de)(de)(de)RTX 3090。
為了發揮AMD CPU和GPU的協同效應,Radeon擁有AMD SmartAccess Memory技術,銳龍CPU和顯(xian)卡之間能(neng)實現更出色的通(tong)信(xin)。RX6800系列顯(xian)卡在部分游(you)戲中4K畫質(zhi)性(xing)能(neng)額外提升最高可達7%。
2022年(nian)前,AMD將基(ji)于更(geng)先進的制(zhi)程打造RDNA3微(wei)架構,進一步強化光追等(deng)計算表現(xian)。
除了(le)傳統的(de)BGA顯存封裝,AMD還積極運(yun)用HBM系(xi)列(lie)顯存。在Radeon7中,16GB的(de)HBM2顯存擁有1TB/S的(de)帶寬,超過同期Titan RTX 50%。

▲AMD獨立游(you)戲GPU路線圖(tu)

▲AMD獨立游戲(xi)GPU產品線(xian)
AMD的(de)數據(ju)中心(xin)GPU業(ye)務由Radeon Instinct加速器系(xi)列(lie)、以客戶為核心(xin)的(de)數據(ju)中心(xin)解決(jue)方案和(he)ROCm組成。AMD的(de)主要(yao)合(he)作伙(huo)伴包括戴爾、惠普等OEM,同時(shi)AMD也(ye)向(xiang)微軟AZURE和(he)亞馬遜網絡服(fu)務提供視覺云解決(jue)方案。
ROCm是(shi)全(quan)球首個針對(dui)加(jia)速(su)式計算(suan)且不限定(ding)編程語言的超大規模(mo)開源平臺,遵循(xun)UNIX的選擇哲學、極簡主義(yi)以及針對(dui)GPU計算(suan)的模(mo)塊化軟件開發。
ROCm適合大規模計算,支持多路GPU,有豐富的系(xi)統運行庫,包(bao)括框架、庫、編(bian)程模型、互聯和(he)Linux Kernel上游(you)支持,提供各種(zhong)重要功能(neng)來支持大規模應用、編(bian)譯(yi)器和(he)語言運行庫的開發。
AMD正與美國能(neng)源部、橡(xiang)樹(shu)嶺(ling)國家實驗(yan)室和(he)Cray公司(si)合作,使(shi)用(yong)EPYC(霄龍)CPU、Radeon Instinct GPU和(he)ROCm打(da)造超過150億億次FLOPS的全球最快超算平(ping)臺。

▲AMD ROCm開源(yuan)軟件生態

▲AMD數據中心GPU產品線(xian)
Radeon Instinct MI 100加速器采(cai)用專注計(ji)算的CDNA微架構,在計(ji)算和連接方面(mian)實(shi)現了巨大(da)飛躍,與AMD上一代加速器相比,高性能(neng)(neng)計(ji)算工作負載(FP32矩陣(zhen))性能(neng)(neng)提升(sheng)(sheng)近3.5倍(bei),而人工智(zhi)能(neng)(neng)工作負載(FP16)性能(neng)(neng)提升(sheng)(sheng)近7倍(bei)。InstinctMI 100在FP32和FP64的峰值(zhi)TFLOPS中超越了同(tong)期英(ying)偉達安培A100,同(tong)時(shi)功耗比后者(zhe)低100瓦。
為(wei)了滿足多路(lu)GPU的(de)互聯通訊需求,AMD研發了InfinityFabric技術。Infinity Fabric擁有(you)先進(jin)的(de)平臺連接性和(he)可拓展(zhan)性,最多支持(chi)4路(lu)GPU互聯。P2P帶寬是PCIe 4.0的(de)2倍(bei),四GPU集群的(de)P2P帶寬最高可達552GB/s。
未來,AMD將基于(yu)更先進的(de)制程打造CDNA2微架構,進入百億(yi)億(yi)級時(shi)代。

▲Instinct MI 100與安培A100對(dui)比(bi)

▲AMD數(shu)據中心GPU路線圖

▲AMD Infinity Fabric互聯
AMD的其他獨立(li)GPU主要包括嵌入(ru)式(shi)、半(ban)定(ding)制(zhi)化、Radeon Pro工作站顯卡(ka)。半(ban)定(ding)制(zhi)化獨立(li)顯卡(ka)主要倍運用(yong)在索尼、微(wei)軟的本(ben)世代(dai)和次(ci)世代(dai)主機(ji)中。如今,AMD的技術存在于2.2億個家庭(ting)暢享游戲(xi)和視頻娛樂時所用(yong)設備的核心。
嵌(qian)入(ru)式(shi)GPU的(de)特點包括(kuo)卓越的(de)圖(tu)形性(xing)(xing)能、多屏顯示、外形緊湊(cou)、高(gao)(gao)能效(xiao)、長(chang)期供貨。嵌(qian)入(ru)式(shi)GPU分為超高(gao)(gao)性(xing)(xing)能嵌(qian)入(ru)式(shi)GPU、高(gao)(gao)性(xing)(xing)能嵌(qian)入(ru)式(shi)GPU、高(gao)(gao)能效(xiao)嵌(qian)入(ru)式(shi)GPU,它們主要使(shi)用14納米的(de)GCN 1.4北極星微架構,TDP覆蓋20W-135W范(fan)圍。
Radeon Pro系列顯(xian)卡被廣(guang)泛(fan)應用(yong)于建筑工(gong)程、設(she)計(ji)制造、媒體娛樂等領域,擁(yong)有AMD遠程工(gong)作站(zhan)、AMD Eyefinity多屏顯(xian)示(shi)技術、AMD Radeon ProRender等技術。Radeon Pro系列采用(yong)Vega微架構,7或14納米(mi)制程,直接競爭(zheng)對手(shou)是英偉達(da)的(de)Quadro系列。Radeon Pro移(yi)動和(he)臺(tai)式工(gong)作站(zhan)的(de)合作伙伴包括(kuo)蘋果(guo)、戴爾、惠(hui)普等。

▲Radeon? Pro VII GPU規格
3、英特爾:全球GPU追趕者
英特爾(er)是全球(qiu)最大的(de)PC GPU供應商,也是PC和服務器(qi)顯卡唯一的(de)IDM廠商。英特爾(er)的(de)GPU最早可以追(zhui)溯到(dao)1998年(nian)的(de)i740,但是由于羸弱的(de)性能和緩慢的(de)更新(xin)速度,一直沒有非(fei)常大的(de)起色(se)。進(jin)入Core i時代后,英特爾(er)通過(guo)(guo)將核芯(xin)顯卡和CPU進(jin)行捆綁銷售,利用(yong)CPU的(de)龐大市場份額,確(que)立了公司在集(ji)成GPU領域的(de)寡(gua)頭壟(long)斷地位,在此過(guo)(guo)程中AMD的(de)APU一直是酷睿的(de)直接競爭對手。
2020年,英特爾推出了第12代GPGPU,采用全新的Xe微架(jia)構和(he)10納米Super Fin制(zhi)程。相(xiang)較(jiao)于第11代核顯(xian),Xe-LP在(zai)保持電(dian)壓(ya)不變的前提下,大幅提升主頻,能(neng)效顯(xian)著提高(gao)。搭(da)載Xe-LP的i7 1185G7在(zai)GPU性能(neng)方面已(yi)經(jing)超過同(tong)期(qi)AMD的Vega核顯(xian)和(he)英偉達的MX系列(lie)獨(du)顯(xian)。
Xe系列(lie)可以(yi)細分為,集(ji)成/低功耗的Xe-LP、娛樂/游戲(xi)的Xe-HPG、數據中心(xin)/高性能的Xe-HP、高性能計算的Xe-HPC。
目前,Xe-LP的(de)集(ji)成版本(ben)已(yi)經被(bei)第11代酷睿所(suo)采用。Xe-LP的(de)移(yi)動獨立GPU版本(ben)DG1和服務(wu)器(qi)獨立GPU版本(ben)SG1也已(yi)發(fa)布。獨顯(xian)版在(zai)核(he)顯(xian)版的(de)基礎(chu)上(shang)進(jin)一步提升主頻(pin),并(bing)加入了(le)128位4GB LPDDR4X-4266獨立顯(xian)存,單精(jing)度浮點算力(li)提升15%。

▲英特爾Xe縱向對(dui)比(bi)第11代(dai)核顯

▲英特爾Xe產品線
英(ying)特爾的集成GPU在形式(shi)上表現(xian)為核(he)(he)芯顯(xian)卡。核(he)(he)芯顯(xian)卡使用系統DRAM作為非獨立顯(xian)存,通過處(chu)理(li)器內部(bu)的環狀(zhuang)總線與(yu)CPU連接,負(fu)責處(chu)理(li)游戲(xi)、視(shi)頻娛樂等圖(tu)像負(fu)載(zai)。
英特(te)爾Xe核顯(xian)借助10納米(mi)SuperFin的優(you)勢,將處理單元最(zui)高(gao)提(ti)(ti)升(sheng)(sheng)至96個,相較(jiao)于Icelake的64個提(ti)(ti)升(sheng)(sheng)了(le)50%,并且(qie)將連接(jie)CPU和GPU的總(zong)線帶(dai)寬(kuan)提(ti)(ti)升(sheng)(sheng)一(yi)倍(bei),獨(du)立最(zui)終緩(huan)存(cun)(LLC)提(ti)(ti)高(gao)50%,支持最(zui)高(gao)86GB/s的存(cun)儲帶(dai)寬(kuan)。以(yi)上(shang)這些提(ti)(ti)升(sheng)(sheng)使(shi)i7-1185G7的3DMark跑分(fen)較(jiao)前代i7-1065G7提(ti)(ti)升(sheng)(sheng)接(jie)近一(yi)倍(bei),超(chao)過AMD的R74800U和同期英偉達的MX350。
Xe核顯(xian)的顯(xian)示引擎(qing)和媒體引擎(qing)也都(dou)得到加(jia)強。接口(kou)方面(mian),內部支(zhi)持雙eDP,外部支(zhi)持DP1.4、HDMI2.0、雷(lei)電(dian)4、USB4 Type-C。畫質方面(mian),支(zhi)持8K、HDR10、12比特BT2020色域、360赫茲刷(shua)新率(lv)等。
英(ying)特爾(er)(er)Xe核心顯卡(ka)和(he)(he)CPU經(jing)由自家One API驅動中間層框(kuang)架和(he)(he)上層應(ying)用。英(ying)特爾(er)(er)One API解決了編(bian)碼(ma)模(mo)型在不同微(wei)架構間的壁壘,最大化(hua)跨平臺表現和(he)(he)最小化(hua)開發成本(ben)。

▲英特爾(er)Tiger Lake 實(shi)物(wu)圖和(he)Die

▲英特爾Tiger Lake Xe核顯(xian)3DMark性能對比
英特(te)爾獨立GPU分為銳炬Xe MAX和(he)服務器GPU,均隸屬(shu)于Xe LP系列,微架構與核(he)顯Xe相同,采用標準(zhun)封裝和(he)10納米SuperFin制(zhi)程。
目前,銳(rui)炬(ju)(ju)Xe MAX是第一款(kuan)基(ji)于(yu)英(ying)特爾(er) Xe 架構的(de)面向輕薄型筆記本(ben)電腦(nao)的(de)GPU。銳(rui)炬(ju)(ju)Xe MAX在Xe集(ji)成GPU的(de)基(ji)礎上(shang)增加了4GBLPDDR4X-4266的(de)獨立顯存(cun),TDP 25W,峰值主頻1650MHz,單精(jing)度(du)浮點(dian)性能2.46TFLOPs。銳(rui)炬(ju)(ju)Xe MAX可以和11代酷睿處(chu)理(li)器、銳(rui)炬(ju)(ju)Xe GPU同時工作。借(jie)助英(ying)特爾(er)Deep Link技術,獲得具有強大性能和經過功耗優化的(de)集(ji)成系統,以改進創造力(li)和游(you)戲體驗。
目前,英特爾服(fu)務器GPU在Xe核顯(xian)的基礎上(shang),TDP提升到23W,增加了8GB LPDDR4的獨立顯(xian)存,支持高(gao)密度(du)、低延(yan)遲的安卓(zhuo)云(yun)游戲和高(gao)密度(du)媒體轉碼/編碼,以實(shi)現實(shi)時的OTT視頻直播。同(tong)時,英特爾服(fu)務器GPU支持2顆(ke)、4顆(ke)獨立GPU的聚(ju)合(he),成(cheng)倍提高(gao)性(xing)能(neng)。
未來,英特爾(er)還將(jiang)推出面(mian)(mian)向游戲和(he)高性能桌面(mian)(mian)的Xe HPG產品線,增加了(le)光線追(zhui)蹤等硬件(jian)支持,采(cai)用(yong)傳統封裝,外包生(sheng)產。英特爾(er)服務器GPU將(jiang)使用(yong)Xe HPC、Xe HP微架構,采(cai)用(yong)2.5D和(he)3D先(xian)進(jin)封裝,10納米SuperFin及(ji)更先(xian)進(jin)自家或外包工藝。

▲英特爾Xe服務器GPU參數(shu)

▲英特爾Xe產品、封裝、制(zhi)程

▲英特爾銳炬Xe MAX
4、ARM Mali:全球GPU IP巨頭
ARM是全(quan)球最大(da)的(de)(de)半導體IP提(ti)供商。全(quan)世界(jie)超過(guo)95%的(de)(de)智能手機(ji)和平板(ban)電腦都采用ARM架(jia)構(gou)。2019Q2,全(quan)球近43%的(de)(de)手機(ji)和平板(ban)GPU由Mali驅動。2020第四(si)季度,ARM半導體合作伙(huo)伴基于ARM技術(shu)的(de)(de)芯(xin)片(pian)出貨量(liang)達(da)到67億顆(ke),再創歷(li)史新高(gao),超過(guo)其(qi)他所有流行的(de)(de)CPU指令集架(jia)構(gou)—X86、ARC、Power、MIPS的(de)(de)總和。
國產SoC中(zhong),有95%是基(ji)于ARM處理器技(ji)術,ARM中(zhong)國授(shou)權客戶(hu)超(chao)(chao)過150家(jia),基(ji)于ARM架構的國產芯(xin)片(pian)出貨量已經超(chao)(chao)過184億。
ARM的Mali GPU按性能(neng)可以分(fen)為3大類,分(fen)別(bie)是高(gao)性能(neng)、主流(liu)、高(gao)能(neng)效(xiao)。

▲ARM IP組合和SoC設計(ji)

▲ARM Mali GPU路線圖
Arm Mali-G78 GPU是用于(yu)(yu)高(gao)(gao)端設備的第二代基(ji)于(yu)(yu)Valhall架構的GPU。Mali-G78是性能最(zui)高(gao)(gao)的ArmGPU,可支持(chi)復雜(za)的應用,例如適(shi)用于(yu)(yu)Vulkan和OpenCL等所(suo)有最(zui)新API的游(you)戲(xi)圖形(xing)和機(ji)器學習(ML)。
Mali-G78與上一(yi)代設(she)備相比(bi),GPU性能(neng)(neng)提(ti)高(gao)了25%,并(bing)增強了設(she)備上的(de)(de)ML功能(neng)(neng),從(cong)而有(you)助于將高(gao)度復雜的(de)(de)游戲帶入移動設(she)備。Mali-G78最多(duo)支(zhi)持(chi)24個(ge)(ge)內核,并(bing)包(bao)含異步(bu)頂級功能(neng)(neng),可(ke)確保性能(neng)(neng)有(you)效地分布在各個(ge)(ge)內核上,從(cong)而使圖形運(yun)行(xing)更加流(liu)暢。全新(xin)執行(xing)引擎中的(de)(de)新(xin)型融合乘加(FMA)單元(yuan)可(ke)進(jin)一(yi)步(bu)降低30%的(de)(de)單元(yuan)能(neng)(neng)耗。
在GFXBench Aztec Ruin的(de)跑分中,使用臺(tai)積電(dian)5納米工藝,搭載(zai)24個Mali-G78內核(he)的(de)麒麟9000 SoCGPU的(de)幀數強于驍龍865的(de)Adreno 650,但仍(reng)落后于蘋果A14。

▲ARM Mali-G78

▲麒麟(lin)9000系列的(de)ARM Mali-G78應(ying)用
Imagination Technologies是一家總部(bu)在英國,專注(zhu)于半導體和(he)(he)相關知識產權許可,銷(xiao)售PowerVR移動圖形處理器(qi),MIPS嵌入式微(wei)處理器(qi)和(he)(he)消費電子產品(pin)。公(gong)(gong)司(si)還提供(gong)無線基帶處理,網絡,數(shu)字信號處理器(qi),視頻(pin)和(he)(he)音頻(pin)硬件,IP語(yu)音軟件,云(yun)計(ji)算(suan),以(yi)及芯片和(he)(he)系統設計(ji)服務(wu)。2017年,董事會(hui)宣布公(gong)(gong)司(si)被中資的Canyon Bridge收購。
Imagination在(zai)(zai)GPU領(ling)(ling)域(yu)(yu)歷史悠久,在(zai)(zai)其(qi)超過25年的歷史中,Imagination先后推出過多代GPU產品,已積累超過1500項GPU專(zhuan)利(li),曾(ceng)為蘋果供(gong)應圖像處(chu)(chu)理器(qi)(GPU),在(zai)(zai)圖像處(chu)(chu)理器(qi)(GPU)領(ling)(ling)域(yu)(yu)與高(gao)通、ARM三分(fen)天(tian)下,曾(ceng)占(zhan)GPU市(shi)場大約占(zhan)據三分(fen)之一的份(fen)額,在(zai)(zai)汽(qi)車領(ling)(ling)域(yu)(yu)更(geng)是(shi)達(da)到43%。帶有Imagination IP的芯(xin)片(pian)產品累計出貨量已超過110億。
Imagination的IP包括圖(tu)形處理器和視覺與人工智(zhi)能(neng)2類。公司Power VR產(chan)品被廣泛應(ying)用(yong)于移動設備(智(zhi)能(neng)手機(ji)、平(ping)板)、汽車(儀(yi)表、信息娛樂、輔(fu)助駕駛)、沉浸(jin)式體驗(AR/VR)、消費電(dian)(dian)子(電(dian)(dian)視、機(ji)頂盒(he))。
根據(ju)Imagination的(de)(de)GPU路線(xian)圖(tu),在A系(xi)列(lie)GPU性能(neng)最高提(ti)升2.5倍之后,B系(xi)列(lie)到D系(xi)列(lie)GPU的(de)(de)年復(fu)合增(zeng)速在30%左右。2021年的(de)(de)C系(xi)列(lie)GPU將首次(ci)加入L4級別(bie)的(de)(de)光(guang)(guang)線(xian)追蹤(zong),從硬件層面(mian)支持一(yi)致(zhi)性分類(lei)的(de)(de)層次(ci)包圍體(BVH)和復(fu)雜光(guang)(guang)線(xian)處理,相比目前(qian)英偉達和AMD的(de)(de)L3級別(bie)光(guang)(guang)線(xian)追蹤(zong)方案可顯著提(ti)升能(neng)效,實現(xian)更好的(de)(de)用戶體驗。

▲IMG系(xi)列GPU路線圖
5、全球GPU IP巨頭:Imagination
2020年10月,Imagination推(tui)出了全(quan)新的(de)IMG B系(xi)列(lie)GPU,這(zhe)是公(gong)司第一個包含新多(duo)核(he)架(jia)構的(de)GPU IP系(xi)列(lie),也是首次采用(yong)RISC-V,可提供(gong)最(zui)高的(de)性(xing)能(neng)密(mi)度。得益于多(duo)核(he)架(jia)構和Imagination圖像壓縮(suo)技(ji)(IMGIC),B系(xi)列(lie)相比A系(xi)列(lie),功(gong)耗(hao)降低(di)30%,帶寬(kuan)降低(di)35%、面積縮(suo)減25%,AI算力達到(dao)24 TOPS,且填充率比競品IP內(nei)核(he)高2.5倍。與A系(xi)列(lie)相似,B系(xi)列(lie)GPU也支持AI協同(tong)技(ji)術,在提供(gong)圖形處理功(gong)能(neng)的(de)同(tong)時(shi),可用(yong)備用(yong)資源來處理可編(bian)程AI等任務(wu)。
IMG B系(xi)(xi)列(lie)GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四(si)種系(xi)(xi)列(lie)。其中IMG BXE面(mian)向(xiang)高(gao)清(qing)顯示應用,IMG BXM主打圖形處(chu)理體驗,IMG BXT面(mian)向(xiang)高(gao)性能(neng)應用,IMG BXS面(mian)向(xiang)未來汽車(che)。
BXS系列符(fu)合ISO 26262標準,也是迄今為止所開發的最先(xian)進汽車GPU IP內核。BXS提供了(le)一個完(wan)整的產(chan)品(pin)系列,從入門到高端(duan),可為下一代人機界(jie)面(HMI)、UI顯(xian)示(shi)、信息娛樂(le)系統(tong)、數字(zi)駕艙、環繞視圖提供解決方案。高計算能力的配置(zhi)可支持自動駕駛和ADAS。
憑借(jie)核(he)心可(ke)(ke)擴(kuo)展的優勢,IMG B系列(lie)適用于傳(chuan)統移動(dong)設(she)備、消費類(lei)設(she)備、物(wu)聯網(wang)、微控制器(qi)、數字電(dian)視(DTV)和汽車等市(shi)場領(ling)域。IMG B系列(lie)也(ye)可(ke)(ke)擴(kuo)展至桌面GPU、云端GPU服(fu)務器(qi),且支持(chi)自動(dong)駕駛(shi)和輔(fu)助駕駛(shi)等。

▲IMG B系列對比A系列能(neng)效(xiao)提升

▲Imagination GPU組合
6、高通Adreno:全球移動GPU先驅
高通(tong)的(de)(de)自研GPU Adreno源(yuan)于收購的(de)(de)AMD移動GPU Imageon系(xi)列。早期(qi)的(de)(de)Adreno 100系(xi)列只有2D圖形加(jia)速和有限的(de)(de)多媒體功(gong)能。2008年發(fa)布的(de)(de)Adreno 200是首(shou)款(kuan)被集成(cheng)到驍龍SoC中的(de)(de)GPU,并加(jia)入了(le)3D硬件加(jia)速功(gong)能。
2020年(nian)12月,高通推出了(le)搭載Adreno 660的(de)驍(xiao)龍(long)888 SoC。Adreno 660繼承了(le)Adreno650的(de)微架構(gou),采用了(le)三星5納米LPE工(gong)藝,大幅提高主頻(pin),使圖形渲染性能(neng)提高35%,能(neng)效提高20%。Adreno 660全面支(zhi)持Qualcomm? Snapdragon Elite Gaming和(he)Qualcomm? Game Quick Touch ,二者將(jiang)可變速(su)率渲染和(he)響應(ying)速(su)度分別(bie)提升30%和(he)20%。
在GFXBench Aztec Ruin 1080P測試中,Adreno 660的峰值幀數追平(ping)麒麟9000,但相較蘋果A14仍有(you)近(jin)20%的差距。

▲高通(tong)Adreno 660 1080P性(xing)能對比(bi)

▲高通Adreno 660 GPU

▲高通Adreno 660參數
7、蘋果:全球移動GPU新秀
蘋(pin)(pin)果的自研(yan)GPU首(shou)次出現于2017年的A11 SoC。A11的三核(he)心(xin)GPU作為蘋(pin)(pin)果的首(shou)款自研(yan)GPU,其性能超過采用(yong)Power VR GT7600+的A10 GPU 30%。其后,所有的A系列(lie)SoC的GPU均為蘋(pin)(pin)果自研(yan)。
2020年(nian),蘋果推出了5納米制程(cheng)的(de)(de)M1芯(xin)(xin)片,該款SoC基(ji)于(yu)A14芯(xin)(xin)片,在CPU、GPU、NPU、緩存(cun)等(deng)各方面都(dou)進行了強化,用于(yu)驅動(dong)蘋果的(de)(de)Mac產品。M1芯(xin)(xin)片的(de)(de)發(fa)布(bu)標志著蘋果繼2005年(nian)放(fang)棄IBM的(de)(de)PowerPC指(zhi)令集轉向Intel的(de)(de)X86指(zhi)令集后的(de)(de)又(you)一大PC領(ling)域轉換。
采(cai)用8核GPU的(de)(de)M1擁有128個(ge)執行(xing)單元,可以同(tong)(tong)步運(yun)行(xing)近(jin)25000個(ge)線程,單精度浮點算力達(da)到(dao)2.6 TFLOPs。M1 GPU的(de)(de)能效表現(xian)是當時同(tong)(tong)類PC中集成GPU的(de)(de)三倍,峰值性能最(zui)高可達(da)其他(ta)GPU的(de)(de)2倍。

▲蘋果M1 GPU參(can)數(shu)

▲蘋果M1能效對比

▲蘋果M1 8核GPU
三、國產GPU自主之路
國(guo)產(chan)GPU的發(fa)展(zhan)落(luo)后(hou)于(yu)國(guo)產(chan)CPU,直到(dao)2014年4月,景(jing)嘉微才成功研發(fa)出國(guo)內首款國(guo)產(chan)高性(xing)(xing)能、低(di)功耗GPU芯(xin)片—JM5400。在(zai)國(guo)產(chan)GPU的開發(fa)中(zhong),GPU對CPU的依賴性(xing)(xing)和(he)GPU的高研發(fa)難度,阻礙了該產(chan)業的快速發(fa)展(zhan)。
首先,GPU對CPU有依賴性。GPU結(jie)構沒有控制器,必須(xu)由CPU進行控制調用才能工作(zuo),否則GPU無法(fa)單(dan)獨(du)工作(zuo)。所(suo)以國(guo)產CPU較(jiao)國(guo)產GPU先行一(yi)步是符(fu)合芯片產業發展邏輯的。
再者(zhe),GPU技術難(nan)度(du)很高。Moor Insights & Strategy首(shou)席(xi)分析師(shi)莫海德曾表(biao)示(shi):“相比CPU,開(kai)發GPU要(yao)更加(jia)困難(nan),而(er)GPU設(she)計(ji)師(shi)、工程(cheng)師(shi)和驅(qu)動程(cheng)序的作者(zhe)都要(yao)更少(shao)(shao)。”國內(nei)人才缺(que)口也是(shi)國產GPU發展緩慢的重要(yao)原因之(zhi)一。在(zai)芯(xin)片(pian)行業,一般來說,培養(yang)一位擁有豐富經(jing)驗并且能夠根據市場動態及時修改芯(xin)片(pian)設(she)計(ji)方(fang)案的成熟工程(cheng)師(shi),至少(shao)(shao)需要(yao)10年。

▲國產GPU公司及其業務(wu)簡介
中(zhong)國GPU市場規模和潛力非(fei)常大(da),龐大(da)的整(zheng)機(ji)制造能力意味著(zhu)巨(ju)量(liang)的GPU采購。雖(sui)然近(jin)些年(nian),計算(suan)機(ji)整(zheng)機(ji)和智能手機(ji)產量(liang)增長都出現瓶頸,但由于這兩類(lei)產品體量(liang)龐大(da),2019年(nian)國內(nei)智能手機(ji)出貨量(liang)為3.72億部,電子計算(suan)機(ji)整(zheng)機(ji)年(nian)產量(liang)達到3.56億臺,GPU的需求量(liang)大(da)且單(dan)品價(jia)值非(fei)常高(gao),市場規模依然非(fei)常可觀。
同時,服務器(qi)GPU伴隨著整(zheng)機出(chu)貨(huo)的快速(su)(su)成長(chang),需求量(liang)(liang)增(zeng)(zeng)長(chang)也(ye)較為迅速(su)(su)。據統(tong)計,2018年國(guo)(guo)內(nei)服務器(qi)出(chu)貨(huo)量(liang)(liang)達到330.4萬臺(tai),同比增(zeng)(zeng)長(chang)26%,其中互聯網、電信、金融和(he)服務業(ye)等(deng)行業(ye)的出(chu)貨(huo)量(liang)(liang)增(zeng)(zeng)速(su)(su)也(ye)均(jun)超過20%。另外,國(guo)(guo)內(nei)在物聯網、車(che)聯網、人工智(zhi)能等(deng)新興計算(suan)領域(yu),對GPU也(ye)存(cun)在海量(liang)(liang)的需求。
據統(tong)計,近(jin)年(nian)來中國(guo)集成電路自(zi)給率不斷提升,2018年(nian)為(wei)13%,預計2020年(nian)有望提升至15%,但仍然處于較低水平。根據國(guo)務院印發(fa)的(de)《新時期促進(jin)集成電路產(chan)(chan)業(ye)(ye)和軟件(jian)產(chan)(chan)業(ye)(ye)高質(zhi)量發(fa)展的(de)若干(gan)政策》等(deng)文件(jian),中國(guo)芯(xin)片自(zi)給率要在2025年(nian)達(da)到70%,這將產(chan)(chan)生8000億元(yuan)的(de)國(guo)產(chan)(chan)芯(xin)片需(xu)求。中國(guo)芯(xin)片產(chan)(chan)業(ye)(ye)發(fa)展空(kong)間非常大。

▲2019年中國大陸集成電路(lu)進口(kou)額結構

▲2012-2020年中國(guo)大陸集成(cheng)電(dian)路(lu)自給率
1、景嘉微:具有完全自主知識產權,打破國外GPU長期壟斷
長(chang)沙景嘉微電子(zi)股份有(you)限公司成立于(yu)2006年(nian)4月,位于(yu)長(chang)沙市高(gao)新技術開發(fa)區,公司擁有(you)經(jing)驗(yan)豐(feng)富的(de)集成電路(lu)設(she)計團隊,是(shi)國產GPU的(de)主要參與者,也(ye)是(shi)唯一自主開發(fa)并已經(jing)大規模商用的(de)企業(ye)。
2014年4月,成(cheng)功研發出國(guo)內(nei)首款國(guo)產高(gao)可靠、低功耗GPU芯片-JM5400,具(ju)有完全自(zi)主知(zhi)識產權,打破(po)了國(guo)外產品(pin)長期(qi)壟(long)斷我國(guo)GPU市場的局面,在(zai)多個國(guo)家重(zhong)點項目中得到了成(cheng)功的應用;
2018年8月,公(gong)司自主研發的新一代高性(xing)能、高可靠(kao)GPU芯片-JM7200流(liu)片成(cheng)功,將國產GPU的技(ji)術發展提高到新的水平,可為各類(lei)信息(xi)系統提供強(qiang)大的顯示(shi)能力;
2019年,公司在JM7200基礎上(shang),推(tui)出了商(shang)用版本-JM7201,滿足桌面(mian)系統高性(xing)能顯示(shi)需求,并全面(mian)支持國產(chan)CPU和國產(chan)操作(zuo)系統,推(tui)動(dong)國產(chan)計(ji)算機(ji)的生態構建和進一(yi)步完善。

▲景嘉微發展歷程
景嘉(jia)(jia)微已完(wan)成(cheng)兩個系(xi)列、三款GPU的量產應(ying)用(yong),產品覆(fu)蓋軍用(yong)和(he)民(min)用(yong)兩大(da)市場(chang)(chang)。景嘉(jia)(jia)微第一代GPU JM5400主要運(yun)用(yong)于(yu)軍用(yong)市場(chang)(chang),替代原ATI M9、M54、M72等美系(xi)GPU芯(xin)片(pian)。景嘉(jia)(jia)微第二(er)代GPU JM7200在產品性(xing)能(neng)和(he)工藝設計上較JM5400有較大(da)提升,是首(shou)例進(jin)入民(min)用(yong)市場(chang)(chang)的圖形(xing)芯(xin)片(pian)。公(gong)司(si)與國內主要CPU廠(chang)商(shang)和(he)計算機(ji)整機(ji)廠(chang)商(shang)已建立合作關系(xi)。JM7201在JM7200的基礎上對民(min)用(yong)市場(chang)(chang)的桌面應(ying)用(yong)進(jin)行了(le)優化(hua),推出標準MXM和(he)標準PCIE顯(xian)卡,在保證性(xing)能(neng)的同時,降(jiang)低(di)了(le)功耗(hao),縮小了(le)體積。

▲景嘉微國產GPU芯片產品線
景嘉微的(de)第二代(dai)(dai)GPU JM7200系(xi)列于2018年8月(yue)流片成功,并在2019年3月(yue)獲得首個訂單。相較于前代(dai)(dai)JM5400,JM7200在理論性(xing)能(neng)上有翻倍的(de)提升,同時制(zhi)程(cheng)也進化到了28納米(mi)。但是JM7200在顯存帶(dai)寬、像素填充率、浮點性(xing)能(neng)等方面較2012年發(fa)售,采用完整(zheng)版(ban)GK107核心的(de)英偉達GT640還(huan)有相當差距。

▲各景嘉微GPU參(can)數(shu)對(dui)比
2018年(nian)12月,景嘉微定增(zeng)募集10.88億元,用(yong)于(yu)高(gao)性能(neng)通用(yong)圖形處理(li)器和面向(xiang)消費電(dian)子領域(yu)的通用(yong)類芯片(pian)研發和產業化(hua)項(xiang)目(mu)。其中,高(gao)性能(neng)通用(yong)圖形處理(li)器項(xiang)目(mu)包括JM9231和JM9271兩(liang)款GPU芯片(pian),分別面向(xiang)不同(tong)應用(yong)領域(yu)的中、高(gao)檔系(xi)列(lie)產品(pin)。據公司2020年(nian)中報顯示(shi),下一代圖形處理(li)器研發處于(yu)后端設計階段,研發進程一切順(shun)利。
景嘉微JM9系列(lie)是繼JM5400和(he)JM7200局部渲(xuan)染計算(suan)內核之后(hou),首次采用統一渲(xuan)染結構的(de)(de)GPU,并且增加了可(ke)編(bian)程計算(suan)模塊數量(liang)。JM9231和(he)JM9271在(zai)性能表(biao)現(xian)分(fen)別(bie)與英偉(wei)達于2016年推(tui)(tui)出(chu)的(de)(de)GTX1050和(he)GTX1080相近。JM9系列(lie)的(de)(de)推(tui)(tui)出(chu)將使(shi)公司GPU水(shui)(shui)平(ping)與海外龍頭水(shui)(shui)平(ping)縮短至5年,大幅(fu)提升公司在(zai)GPU領域的(de)(de)競(jing)爭(zheng)力。

▲景嘉(jia)微(wei)后續高(gao)性(xing)能通用GPU性(xing)能參數對比(bi)
2、芯原微電子:國產GPU IP龍頭
芯原微電(dian)(dian)子是(shi)依(yi)托自(zi)主(zhu)半(ban)導體(ti)IP,為(wei)客戶提供平臺(tai)化、全方(fang)位、一站(zhan)式芯片(pian)定制服(fu)務和半(ban)導體(ti)IP授(shou)權(quan)服(fu)務的企業(ye)(ye)。公司(si)至(zhi)今擁有高(gao)清視(shi)頻(pin)、高(gao)清音(yin)頻(pin)及(ji)語(yu)音(yin)、車載娛樂系(xi)(xi)統處(chu)(chu)理(li)器(qi)(qi)、視(shi)頻(pin)監控(kong)、物聯網連接、數據中(zhong)心等(deng)多(duo)種一站(zhan)式芯片(pian)定制解決方(fang)案,以(yi)及(ji)5類自(zi)主(zhu)可控(kong)的處(chu)(chu)理(li)器(qi)(qi)IP,分別為(wei)圖形處(chu)(chu)理(li)器(qi)(qi)IP、神(shen)經網絡處(chu)(chu)理(li)器(qi)(qi)IP、視(shi)頻(pin)處(chu)(chu)理(li)器(qi)(qi)IP、數字(zi)信號(hao)處(chu)(chu)理(li)器(qi)(qi)IP和圖像信號(hao)處(chu)(chu)理(li)器(qi)(qi)IP,以(yi)及(ji)1,400多(duo)個數模(mo)混合(he)IP和射(she)頻(pin)IP,年(nian)均流片(pian)項目超過40個。主(zhu)營(ying)業(ye)(ye)務的應用領域廣泛包(bao)括(kuo)(kuo)消(xiao)費電(dian)(dian)子、汽車電(dian)(dian)子、計算機及(ji)周(zhou)邊(bian)、工業(ye)(ye)、數據處(chu)(chu)理(li)、物聯網等(deng),主(zhu)要客戶包(bao)括(kuo)(kuo)IDM、芯片(pian)設(she)計公司(si),以(yi)及(ji)系(xi)(xi)統廠商、大型物聯網公司(si)等(deng)。
芯(xin)原在(zai)傳(chuan)統CMOS、先進FinFET和(he)FD-SOI等(deng)全(quan)球主流半導體工(gong)藝(yi)節(jie)點上都(dou)具有(you)優秀(xiu)的設計(ji)能(neng)力,先進工(gong)藝(yi)制程覆蓋14nm/10nm/7nm FinFET和(he)28nm/22nm FD-SOI,并已開始進行5nm FinFET 芯(xin)片(pian)的設計(ji)研發和(he)新(xin)一(yi)代(dai) FD-SOI 工(gong)藝(yi)節(jie)點芯(xin)片(pian)的設計(ji)預研。
此外(wai),根據Ipnest統計(ji),芯原是2019年中(zhong)國大陸排名(ming)第(di)一、全球排名(ming)第(di)七的半導體IP授權服(fu)務供應(ying)商,全球市場占有率約為1.8%。

▲芯原股份發展歷程

▲2019全球IP企業市(shi)占率排名
芯(xin)(xin)(xin)(xin)原GPU IP源于公司(si)在(zai)2016年收購的美國嵌入式GPU設(she)計(ji)商圖(tu)芯(xin)(xin)(xin)(xin)技術(shu)(Vivante)。芯(xin)(xin)(xin)(xin)原在(zai)GPU IP領域已經掌握(wo)了支持主流圖(tu)形加速標準、自主可控指令集和可拓(tuo)展性強(qiang),性能范圍廣泛等核(he)心技術(shu),可廣泛應(ying)用于IOT、汽車(che)電(dian)子、PC等市(shi)(shi)場。根據 IPnest 報告,芯(xin)(xin)(xin)(xin)原GPU IP(含(han) ISP)市(shi)(shi)場占(zhan)有率(lv)排名(ming)全(quan)球前三(san),僅(jin)次于ARM和Imagination,2019 年全(quan)球市(shi)(shi)場占(zhan)有率(lv)約為 11.8%。
目前,芯原(yuan)在圖形(xing)處理(li)器技(ji)術(shu)的(de)研發課題包括通用圖形(xing)處理(li)器運算(suan)內核的(de)持續(xu)優化(hua)和(he)矢量圖形(xing)處理(li)器DDR-Less技(ji)術(shu)。矢量GPU DDR-Less技(ji)術(shu)可以在不使用外部存儲器DDR的(de)基礎上(shang),實現架構清晰、分工明確(que)、易于使用、軟件控(kong)制流程簡單等優點,適用于物聯網、可穿戴設(she)備和(he)車載設(she)備。

▲2019全球IP設計分類(lei)

▲芯(xin)原GPU IP的核心(xin)技術和典(dian)型應(ying)用示例
芯原可拓展Vivante GPU IP應用(yong)(yong)涵蓋(gai)從低功(gong)耗的小型物聯網MCU(GPU Nano IP系列)到面向(xiang)汽車和計(ji)算機應用(yong)(yong)的強大SoC(GPUArcturus圖形IP),可滿(man)足(zu)各種芯片尺寸和功(gong)耗預算,是具有成(cheng)本效益的優質圖形處理器解決方案。
芯原的(de)(de)(de)的(de)(de)(de)圖(tu)形處理器(qi)技術支持業界主(zhu)流(liu)的(de)(de)(de)嵌入式(shi)圖(tu)形加速標準Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等(deng),具有自主(zhu)可控的(de)(de)(de)指令集(ji)及(ji)專(zhuan)用編譯器(qi),支持每秒2500億次的(de)(de)(de)浮點運算能力及(ji)128個并行著色器(qi)處理單元。

▲芯(xin)原GPU Nano IP產品線及(ji)其可應用(yong)場景

▲芯原GPU IP API和操作系統(tong)兼(jian)容性(xing)
芯原股份現(xian)有的半導體IP分(fen)為處理(li)器(qi)IP、數模混(hun)合IP及射頻IP,其中GPU IP隸屬于處理(li)器(qi)IP。整體來看(kan),2017-2019芯原得益于不斷豐富的IP儲備(bei)及一(yi)站(zhan)式芯片定制業務(wu)的協同(tong)效(xiao)應,公(gong)司半導體IP授權業務(wu)收入持續(xu)上升,GPU IP的年復合增速達13%。2019年GPU IP的營(ying)收占公(gong)司半導體IP營(ying)收的31.29%,主要由(you)于其他類型IP收入上升,GPU IP比重(zhong)相(xiang)對(dui)下降。
芯原在圖形處理(li)器(qi)(qi)技術(shu)方(fang)面的(de)研發包括高性能的(de)通用(yong)圖形處理(li)器(qi)(qi)GC8400 IP,該IP適用(yong)于汽車電子,目前仍處IP設計驗(yan)證階(jie)段,擬達到每(mei)秒1萬億次的(de)浮點運(yun)算能力雙倍(bei)精密度,512個并行著(zhu)色器(qi)(qi)處理(li)單元 。
3、航錦科技
航錦(jin)科技是(shi)一家(jia)大型化(hua)工(gong)生產基(ji)地,公司(si)的前身是(shi)錦(jin)西化(hua)工(gong)總廠。2017下半年(nian),航錦(jin)科技通過收(shou)購長(chang)沙韶關和威科電子(zi)(zi)兩家(jia)軍工(gong)企業,挺(ting)進電子(zi)(zi)產業,形(xing)成化(hua)工(gong)+電子(zi)(zi)雙主(zhu)業發展模式,構建(jian)起三(san)個支撐(cheng)板(ban)塊(化(hua)工(gong)、電子(zi)(zi)、金融)。
航錦科技(ji)電子板塊以(yi)芯(xin)片為(wei)核(he)心產(chan)品,圍(wei)繞高(gao)端(duan)芯(xin)片與通信兩大(da)領(ling)域,覆(fu)蓋高(gao)端(duan)芯(xin)片(圖形處理芯(xin)片/特種FPGA/存儲芯(xin)片/總線(xian)接口芯(xin)片)、北斗3芯(xin)片以(yi)及通信射頻三大(da)主要產(chan)業。堅持軍民兩用為(wei)發(fa)展方向,產(chan)品廣(guang)(guang)泛應用于航空、航天、兵器、船舶、電子等領(ling)域,擁(yong)有廣(guang)(guang)闊的市場空間。
航錦(jin)科技的GPU技術源于并購(gou)的長沙韶(shao)光。2018年,長沙韶(shao)光自(zi)主研(yan)發和合作研(yan)發的第(di)一(yi)代(dai)及第(di)二(er)代(dai)圖(tu)形處理(li)芯片(GPU)獲(huo)得集成電路布圖(tu)設(she)(she)計登(deng)記證(zheng)書;2019年,長沙韶(shao)光自(zi)主研(yan)發的第(di)二(er)代(dai)改進型(xing)圖(tu)形處理(li)芯片在自(zi)主可控設(she)(she)備領域的應(ying)用(yong)得到驗證(zheng),并收獲(huo)相關訂單。

▲航錦(jin)科技(ji)自主可(ke)控芯片板塊示意圖
4、兆芯:同時掌握CPU、GPU、芯片組三大核心技術
上(shang)海兆芯集(ji)成電路有限(xian)公(gong)司(si)(si),簡稱“兆芯”,由(you)上(shang)海聯合投(tou)資有限(xian)公(gong)司(si)(si)(上(shang)海市國資委(wei)完全出資)和中國臺灣威盛(sheng)電子(zi)共同成立,也是世界上(shang)第三(san)家擁(yong)有X86授(shou)權的微(wei)處理器公(gong)司(si)(si),總部(bu)位(wei)于上(shang)海張(zhang)江,在北京(jing)、西安(an)、武漢、深圳等地設有研發中心和分支機構。
公司同時掌握CPU、GPU、芯片組三大核(he)心技術,且(qie)具備(bei)三大核(he)心芯片及(ji)相關(guan)IP設計與(yu)研發(fa)的能力,致力于(yu)通過技術創新(xin)(xin)與(yu)兼容主(zhu)流的發(fa)展路線,推動信息產(chan)業(ye)的整體發(fa)展,并獲(huo)評了“高新(xin)(xin)技術企(qi)業(ye)資質”。兆芯提供了桌面整機,服務(wu)器,工業(ye)主(zhu)板(ban),工業(ye)平臺,系統(tong)級(ji)解決方案,在黨政辦公,交通,金(jin)融,能源,教育,網絡安全方面有著廣泛(fan)的應用。
2019Q2,兆芯(xin)(xin)發布了全新(xin)的用于PC的處(chu)理(li)器KX-6000系列。KX-6000是業內第一款完(wan)整集成(cheng)CPU、GPU、芯(xin)(xin)片組的SoC單芯(xin)(xin)片國(guo)產通(tong)用處(chu)理(li)器。
KX-6000系列處理器采用(yong)16納米制程,集成高(gao)性能顯(xian)卡,支持DP/HDMI/VGA輸(shu)出,兼容DirectX、OpenGL、OpenCL等主流API,最高(gao)可同時輸(shu)出3臺(tai)顯(xian)示(shi)器,分辨率可達4K。
全新(xin)的(de)KX-6000系列處理器擁有出色的(de)兼容性和(he)應用體(ti)驗,包括Windows操(cao)作系統,日常辦公應用,4K視頻解碼和(he)主(zhu)流游戲。

▲兆芯(xin)KX-6000系列兼容性和應用體驗(yan)

▲兆芯(xin)KX-6000處(chu)理器芯(xin)片(pian)架構(gou)?

▲兆芯KX-6000處(chu)理器集(ji)成顯卡參(can)數
兆(zhao)芯KX-6000的(de)(de)C-960 GPU在使(shi)用(yong)惠普兆(zhao)芯圖形(xing)DCH驅動(dong)的(de)(de)情況下,Dota 2游戲性能表現遠落(luo)后(hou)英特爾酷睿i5-7400的(de)(de)UHD 630。未來,兆(zhao)芯還會對(dui)KX系列處(chu)理器進(jin)行(xing)進(jin)一步(bu)的(de)(de)更(geng)新,使(shi)用(yong)全(quan)新的(de)(de)CPU架構,將內(nei)存從DDR4升級(ji)為DDR5,將總線(xian)從PCIe3.0升級(ji)至PCIe4.0。內(nei)存和總線(xian)的(de)(de)升級(ji)分別可以提高顯卡的(de)(de)帶寬和CPU與GPU間的(de)(de)通訊速度(du)。
除(chu)了以上(shang)集成GPU外,兆(zhao)芯還計劃(hua)發布一款(kuan)采(cai)用臺積電28納米工藝,TDP 70瓦(wa)的獨立GPU。

▲兆芯KX6000 GPU游戲性(xing)能(neng)對(dui)比

▲兆芯(xin)處理器發展路線圖
5、凌久電子GPU
凌久電子創立于(yu)1983年,是(shi)中國船舶重(zhong)工集團公(gong)司(si)第(di)七〇九研究所控股的高新技術企業。
凌(ling)久電(dian)子以嵌入式實時信號處理與高(gao)(gao)性能(neng)計算技術(shu)為(wei)基礎,面向(xiang)船舶、航空、航天、兵器等(deng)國防電(dian)子領域及軌道交(jiao)通、海(hai)工裝(zhuang)備、能(neng)源電(dian)力、半導體制造等(deng)民用高(gao)(gao)科技領域提供(gong)芯片(pian)級、模塊級、設備級、系統級等(deng)軟硬件產(chan)品;面向(xiang)科研院所、部隊及軍校提供(gong)作定(ding)制化(hua)軍事仿真服務(wu)。
凌久電子(zi)產(chan)品(pin)(pin)包括元器(qi)(qi)件(jian)類產(chan)品(pin)(pin)、基礎硬件(jian)設備(bei)、基礎支撐軟件(jian)、應用(yong)類產(chan)品(pin)(pin)四(si)大類。其中國(guo)產(chan)通用(yong)GPU GP101隸屬于元器(qi)(qi)件(jian)類產(chan)品(pin)(pin)。

▲凌久電子平臺產品

▲凌久電子元器件類(lei)產(chan)品分類(lei)

▲凌久電子股權結構
GP101是由中國船舶重工集團第709研究所控股的凌(ling)久(jiu)電(dian)子(zi)研制,具備完全自主知識產(chan)權(quan)的圖(tu)(tu)形處理器芯片(pian)。GP101支(zhi)持(chi)2D/3D圖(tu)(tu)形加(jia)速(su),支(zhi)持(chi)二(er)維(wei)矢量圖(tu)(tu)形加(jia)速(su),支(zhi)持(chi)4K分(fen)辨率、視頻(pin)解碼(ma)和(he)硬件圖(tu)(tu)層處理等(deng)功(gong)能GP101支(zhi)持(chi)VxWorks、Linux、Windows等(deng)通用操作系統,支(zhi)持(chi)中標麒(qi)麟、道等(deng)國產(chan)操作系統,支(zhi)持(chi)龍芯、飛騰、申威等(deng)國產(chan)處理器。
GP101實現了我國通(tong)用3D顯(xian)卡(ka)零的(de)(de)突破,在信(xin)息(xi)安(an)全和供(gong)貨能力(li)方便有充分的(de)(de)保障,可以廣泛應用于軍民多個領域。
6、中船重工716研究所:JARI G12 GPU
七一六所(suo)自主研發(fa)的(de)(de)JARI G12是2018年性能最強的(de)(de)國產通(tong)用(yong)圖形處(chu)理器。該處(chu)理器采(cai)用(yong)混合渲染(ran)架構,兼顧數據(ju)帶(dai)寬和渲染(ran)延(yan)時需(xu)求,極大地增(zeng)強了芯片的(de)(de)靈活性和適應性;
提供PCIe 3.0總(zong)線,支(zhi)持x86處理器和龍芯、飛騰、申威(wei)等(deng)國產處理器;支(zhi)持4路(lu)數字通(tong)道和1路(lu)VGA輸(shu)出(chu),提供DP、eDP、HDMI、DVI等(deng)通(tong)用顯(xian)示(shi)介(jie)面(mian),單路(lu)數字通(tong)道最大(da)輸(shu)出(chu)分辨率(lv)為3840×2160@60fps,支(zhi)持擴(kuo)展(zhan)、復制(zhi)顯(xian)示(shi)和“擴(kuo)展(zhan)+復制(zhi)”顯(xian)示(shi)模式;
內建視頻編解碼硬核,支持(chi)2路3840×2160分辨(bian)率視頻的編碼、解碼功能;
支持OpenGL 4.5和(he)OpenGL ES 3.0,滿足高性能3D加速(su)和(he)VR顯(xian)示需求(qiu);
支持OpenCL 2.0,滿足并行計(ji)算和云計(ji)算的使用需求;
集成(cheng)張(zhang)量加(jia)速計算硬核,支持(chi)AI計算加(jia)速。該(gai)GPU支持(chi)Windows、Linux、VxWorks等主流(liu)操(cao)作系統,同時支持(chi)中(zhong)標麒(qi)麟(lin)、JARI-Works、道(dao)等國(guo)內自主可控操(cao)作系統,具備健全的(de)生(sheng)態環境體系。

▲JARI G12架構示(shi)意(yi)圖
7、芯動科技:國產IP和芯片定制先驅
芯動(dong)科技是中(zhong)國一站式(shi)IP和芯片定(ding)制(zhi)(zhi)領軍企業,提(ti)供全(quan)球6大工藝廠(臺積電/三星/格芯/中(zhong)芯國際/聯華電子/英特爾)從130nm到(dao)5納(na)米全(quan)套高(gao)速混(hun)合(he)電路IP核和ASIC定(ding)制(zhi)(zhi)解決方(fang)案,聚焦(jiao)先進(jin)制(zhi)(zhi)程。
芯(xin)動(dong)科技(ji)15年來立足本土發展,所有IP和(he)產品(pin)全(quan)自主可控,連(lian)續(xu)十年中(zhong)國市(shi)場份額領先。公司客(ke)戶(hu)群涵蓋(gai)華(hua)為海(hai)思、中(zhong)興通訊、瑞芯(xin)微、全(quan)志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等(deng)全(quan)球知名企業。
在高性能計算/多媒體&汽車電子/IoT物聯網等領域,芯動解決方案具有國際先進水平,涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能圖像(xiang)處(chu)理器GPU和多媒體(ti)處(chu)理內核等多種技(ji)術。芯動科(ke)技(ji)的芯片定制,跨(kua)工(gong)藝(yi)跨(kua)封(feng)裝(zhuang),涉及(ji)從需求到產品, 能端到端為(wei)客(ke)戶加速從規(gui)格、設計(ji)到流(liu)片量產,及(ji)封(feng)裝(zhuang)成型(xing)全流(liu)程。

▲芯動科(ke)技一站式IP系列

▲芯(xin)動(dong)科技(ji)高(gao)性能計算平臺IP
2020年10月(yue)13日,芯(xin)動科技(ji)與(yu)Imagination達成合作。采用最前沿的多(duo)(duo)晶粒芯(xin)片(chiplet)和(he)GDDR6高速(su)顯存等SOC創新,芯(xin)動科技(ji)將全球首發Imagination全新頂配BXT多(duo)(duo)核架構。
在信創和算力安(an)全方面,“風華”系列GPU內置國產物理不可克(ke)隆iUnique Security PUF信息(xi)安(an)全加密技術(shu),提升數據安(an)全和算力抗攻擊性,支持(chi)桌面電腦(nao)和數據中心GPU計算自主可控生態。
“風(feng)華(hua)”系列(lie)GPU自(zi)帶(dai)浮點(dian)和智(zhi)能(neng)(neng)3D圖形(xing)處(chu)理功能(neng)(neng),全定(ding)制多(duo)(duo)級流水計算內(nei)核,兼具(ju)高(gao)性能(neng)(neng)渲染(ran)和智(zhi)能(neng)(neng)AI算力,還可(ke)級聯組合多(duo)(duo)顆芯片合并(bing)處(chu)理能(neng)(neng)力,靈活性強,適配(pei)國產桌(zhuo)面市場1080P/4K/8K高(gao)品(pin)質顯示,支持VR/AR/AI,多(duo)(duo)路服務(wu)器云(yun)桌(zhuo)面、5G數(shu)據中心(xin)、云(yun)教育、云(yun)游戲(xi)、云(yun)辦公等中國新基建(jian)5G風(feng)口下的(de)大數(shu)據圖形(xing)應用場景。
8、華為海思:GPU Turbo
GPU Turbo是一(yi)種軟(ruan)硬協同的圖形加速技術,可以減少無用渲染次(ci)數,優化(hua)或合并渲染區域。通(tong)過算法,將(jiang)相關運算放在一(yi)個或相鄰的寄存器中(zhong),以此來優化(hua)圖形處理(li)效(xiao)率。
GPU Turbo技術打通了EMUI操作系(xi)統(tong)(tong)以及GPU和CPU之間的處理(li)瓶頸,在系(xi)統(tong)(tong)底層對傳統(tong)(tong)的圖形處理(li)框架進行(xing)了重構,實(shi)現了軟硬件協同,使(shi)得GPU圖形處理(li)整體效率得到大幅提升。
2018年6月發布(bu)了(le)GPU Turbo 1.0,圖形處理效率提(ti)高(gao)60%,同時(shi)做到更省電,保(bao)證高(gao)畫質。
2018年9月發布(bu)了GPU Turbo 2.0,游(you)戲場(chang)景下功耗下降可達13.6%,新增支持多款主流(liu)游(you)戲,同時針對支持的(de)游(you)戲中關鍵&極限(xian)場(chang)景(如團戰、載具等)進行了重點打磨與優(you)化。
2019年4月GPU Turbo全(quan)新(xin)升級,不(bu)僅帶來主(zhu)流游戲接近滿幀運(yun)行的酣暢體驗,功耗的持續(xu)降低也帶來了續(xu)航時(shi)間(jian)的提升。累計支持60款國內游戲。

▲GPU Turbo 2.0能效對比
9、龍芯:GPU突擊隊
中科院計算(suan)所于2001年成立(li)龍芯(xin)課題組,開始研制龍芯(xin)系列處理器,得到了中科院、863、973、核高基等項目大力支持,完成了十(shi)年的(de)核心技(ji)術積累。2010年4月(yue),中國科學院和北京(jing)市共同牽頭(tou)出資入股,成立(li)龍芯(xin)中科技(ji)術有限公(gong)司,龍芯(xin)正式從研發走向(xiang)產業(ye)化。
目前,龍(long)芯自(zi)主(zhu)研發的GPU集(ji)成(cheng)在7A1000橋片中。龍(long)芯7A1000橋片是面(mian)向龍(long)芯3號處理(li)器的芯片組,通(tong)過HT3.0接(jie)口與(yu)處理(li)器相連,集(ji)成(cheng)GPU、顯(xian)(xian)示控制器和獨立顯(xian)(xian)存(cun)接(jie)口,外圍接(jie)口包括(kuo)32路(lu)(lu)PCIE2.0、2路(lu)(lu)GMAC、3路(lu)(lu)SATA2.0、6路(lu)(lu)USB2.0和其它低速(su)接(jie)口,可以滿足桌面(mian)和服務(wu)器領域(yu)對IO接(jie)口的應(ying)用需求,并通(tong)過外接(jie)獨立顯(xian)(xian)卡的方(fang)式(shi)支持高性能圖形應(ying)用需求。
雖然(ran)龍(long)芯7A1000橋(qiao)片(pian)的GPU性(xing)能一般,但(dan)是橋(qiao)片(pian)作(zuo)為(wei)CPU產業(ye)鏈的一環,龍(long)芯已經(jing)實現CPU、橋(qiao)片(pian)和(he)GPU上(shang)完全自主化,打(da)通了CPU產業(ye)鏈上(shang)每一個(ge)環節。
2020年(nian)(nian),龍芯成立六(liu)支研發突(tu)(tu)擊(ji)(ji)隊(dui),分別為3A5000突(tu)(tu)擊(ji)(ji)隊(dui)、3C5000突(tu)(tu)擊(ji)(ji)隊(dui)、7A2000突(tu)(tu)擊(ji)(ji)隊(dui)、2K2000突(tu)(tu)擊(ji)(ji)隊(dui)、GPU突(tu)(tu)擊(ji)(ji)隊(dui)、PCIE突(tu)(tu)擊(ji)(ji)隊(dui)。這六(liu)支突(tu)(tu)擊(ji)(ji)隊(dui)的(de)(de)目的(de)(de)就是要把2-3年(nian)(nian)的(de)(de)工作,在一年(nian)(nian)內(nei)干完(wan)!

▲龍芯7A1000

▲龍(long)芯7A1000 GPU相關(guan)參數
10、芯瞳半導體:高性能GPU設計新星
芯(xin)(xin)瞳(tong)半(ban)導體成(cheng)立(li)于2019年(nian),主要業務包括GPU芯(xin)(xin)片設計、異構(gou)計算(suan)平臺方案(an)、嵌入式顯示系統解決方案(an)、GPU應用部署(shu)解決方案(an)。公司著力于研發(fa)高(gao)性(xing)能的(de)(de)(de)GPU芯(xin)(xin)片,為用戶提供(gong)以自研GPU芯(xin)(xin)片為核心的(de)(de)(de)解決方案(an),致(zhi)力于打造業界領先的(de)(de)(de)GPU芯(xin)(xin)片設計平臺,目標是(shi)成(cheng)為國際一流的(de)(de)(de)GPU芯(xin)(xin)片設計企業。公司創始(shi)團(tuan)隊在(zai)GPU領域有著超過(guo)10年(nian)的(de)(de)(de)學術和工程(cheng)經驗(yan),是(shi)一支軟硬(ying)件全棧式支持(chi)的(de)(de)(de)研發(fa)團(tuan)隊。
公司(si)的(de)(de)GPU架(jia)構(gou)(gou)采用了(le)業(ye)界主流的(de)(de)統一渲染架(jia)構(gou)(gou),并(bing)具有高(gao)度(du)可擴(kuo)展的(de)(de)互聯結構(gou)(gou)和(he)計算陣列,便于芯(xin)片(pian)(pian)后續迭(die)代升(sheng)級(ji)。經過(guo)多年的(de)(de)積累(lei),團隊(dui)構(gou)(gou)建(jian)了(le)芯(xin)片(pian)(pian)建(jian)模虛(xu)擬平臺(tai),通過(guo)該虛(xu)擬平臺(tai),團隊(dui)可以快(kuai)速地完成(cheng)GPU相關軟件(jian)的(de)(de)研(yan)發和(he)軟件(jian)生態的(de)(de)部署,與(yu)此(ci)同時,在(zai)該虛(xu)擬平臺(tai)上快(kuai)速地對芯(xin)片(pian)(pian)架(jia)構(gou)(gou)進行驗(yan)證(zheng),從而縮短GPU芯(xin)片(pian)(pian)的(de)(de)設計驗(yan)證(zheng)周期,提升(sheng)GPU芯(xin)片(pian)(pian)的(de)(de)設計效(xiao)能。
公司第一代(dai)GPU芯片(GenBu01)初測已(yi)成功,已(yi)與統信(xin)、麒麟及(ji)昆侖(lun)完成適(shi)配,目(mu)前正在為(wei)小批量(liang)量(liang)產做(zuo)最終測試。 GenBu01主要面(mian)向的客(ke)(ke)戶(hu)為(wei)需要定制嵌入(ru)式計算機產品的客(ke)(ke)戶(hu)以及(ji)為(wei)國產替代(dai)領域提供(gong)信(xin)創辦(ban)公PC的ODM/OEM廠商。

▲芯瞳(tong)GenBu01參數(shu)
11、天數智芯:國產GPGPU領跑者
天(tian)(tian)數(shu)智(zhi)芯(xin)(xin)于(yu)(yu)2018年正(zheng)式啟動GPGPU芯(xin)(xin)片(pian)設(she)計(ji),是中國第一家GPGPU高(gao)(gao)端(duan)芯(xin)(xin)片(pian)及(ji)超級算(suan)力提(ti)供商。天(tian)(tian)數(shu)智(zhi)芯(xin)(xin)重點打造自(zi)(zi)主(zhu)可控、國際一流的(de)通用、標(biao)準(zhun)、高(gao)(gao)性(xing)能(neng)云端(duan)計(ji)算(suan)芯(xin)(xin)片(pian)GPGPU,從芯(xin)(xin)片(pian)端(duan)解決計(ji)算(suan)力問題;并推出面向5G技術(shu)需求的(de)邊緣(yuan)云端(duan)推理GPGPU,提(ti)供對當前進口主(zhu)流GPGPU體(ti)系的(de)無(wu)縫兼容和市場(chang)化選擇(ze)。2021年1月15日,天(tian)(tian)數(shu)智(zhi)芯(xin)(xin)成功(gong)點亮自(zi)(zi)研7納米制(zhi)程GPGPU云端(duan)訓練芯(xin)(xin)片(pian),性(xing)能(neng)達市場(chang)主(zhu)流產(chan)品的(de)兩倍。該(gai)芯(xin)(xin)片(pian)量產(chan)后(hou)將廣泛應用于(yu)(yu)AI訓練、高(gao)(gao)性(xing)能(neng)計(ji)算(suan)(HPC)等(deng)場(chang)景,服(fu)務于(yu)(yu)教育、互(hu)聯網、金融、自(zi)(zi)動駕駛(shi)、醫療、安防等(deng)各相(xiang)關行業,賦能(neng)AI智(zhi)能(neng)社會。
天(tian)數智芯7納米GPGPU高端自(zi)研云端訓練芯片(pian)的產品優(you)勢包(bao)括:全方位生態兼容、高性能有效算力、指令集編(bian)程架構(gou)、軟硬件全棧支(zhi)持、全自(zi)主(zhu)知識產權。

▲天(tian)數智芯(xin)GPGPU BI芯(xin)片參數
12、壁仞科技和沐曦集成電路
壁(bi)仞科技創立(li)于2019年,團(tuan)隊(dui)由國內外(wai)芯(xin)片和(he)云計算領域核心專業人員、研發人員組成(cheng),在(zai)GPU、DSA(專用(yong)加速器)和(he)計算機(ji)體系結構等領域具有深厚的技術積累(lei)和(he)獨到的行(xing)業洞見。
壁(bi)仞科(ke)技致力(li)于(yu)開發原創性(xing)的通用計算(suan)體系,建立高(gao)效的軟硬件平(ping)臺,同時(shi)在智(zhi)(zhi)能(neng)(neng)計算(suan)領(ling)域(yu)提供(gong)一體化的解(jie)決(jue)(jue)方案。從發展路(lu)徑(jing)上,壁(bi)仞科(ke)技將首先(xian)聚焦云端(duan)通用智(zhi)(zhi)能(neng)(neng)計算(suan),逐步(bu)在人(ren)工(gong)智(zhi)(zhi)能(neng)(neng)訓練和推理、圖形渲染(ran)、高(gao)性(xing)能(neng)(neng)通用計算(suan)等多個領(ling)域(yu)趕超(chao)現有解(jie)決(jue)(jue)方案,實現國產高(gao)端(duan)通用智(zhi)(zhi)能(neng)(neng)計算(suan)芯(xin)片的突破。
沐(mu)曦集成電路專注于設計(ji)具(ju)有完(wan)全自主知識產權(quan),針對(dui)異(yi)(yi)構計(ji)算(suan)(suan)(suan)等各類應(ying)用(yong)的高(gao)性(xing)能(neng)通用(yong)GPU芯(xin)片。公司(si)致力(li)于打造國內最強商(shang)用(yong)GPU芯(xin)片,產品主要(yao)應(ying)用(yong)方(fang)向包含傳統GPU及移動應(ying)用(yong),人工智能(neng)、云計(ji)算(suan)(suan)(suan)、數據中(zhong)心等高(gao)性(xing)能(neng)異(yi)(yi)構計(ji)算(suan)(suan)(suan)領域。
對于研(yan)(yan)發的方(fang)向,沐曦表示(shi)將采(cai)用(yong)業界最先進的5nm工(gong)藝技術,研(yan)(yan)發全兼容CUDA及(ji)ROCm生態的國產高性能(neng)GPU芯(xin)片,滿足HPC、數據中心(xin)及(ji)AI等(deng)方(fang)面的計算需求。GPU將采(cai)用(yong)原創專(zhuan)利保護的可(ke)重(zhong)構GPU架(jia)構,突(tu)破傳統(tong)GPU芯(xin)片能(neng)效瓶頸(jing);采(cai)用(yong)數據壓縮,數據廣播以及(ji)共(gong)享硬件(jian)加速單(dan)元等(deng)先進技術,大幅度優化核心(xin)算力能(neng)耗比。

▲沐(mu)曦高性能GPU研發項(xiang)目
12、登臨科技和摩爾線程
登(deng)臨(lin)科(ke)技(ji)成(cheng)立于2017年11月(yue),是一家專注于為(wei)新興計(ji)算(suan)領域提供高性(xing)能、高功(gong)效(xiao)計(ji)算(suan)平臺的(de)(de)(de)高科(ke)技(ji)企業。公(gong)(gong)司的(de)(de)(de)產品是以芯(xin)片為(wei)核(he)心(xin)的(de)(de)(de)系統解決方案(an),在所有核(he)心(xin)IP上堅持自研(yan)路線。登(deng)臨(lin)科(ke)技(ji)已完成(cheng)由元禾璞華、元生資(zi)本聯(lian)合(he)領投的(de)(de)(de)A+輪(lun)融資(zi),包括北(bei)極光在內(nei)的(de)(de)(de)老股東(dong)持續(xu)在本輪(lun)加碼(ma)跟(gen)進。登(deng)臨(lin)科(ke)技(ji)的(de)(de)(de)首款GPU+(軟件(jian)定義的(de)(de)(de)片內(nei)異構通(tong)用人(ren)工智能處(chu)理器)產品已成(cheng)功(gong)回片通(tong)過測試(shi),開始客戶送樣,公(gong)(gong)司團(tuan)隊具備架構、系統、軟件(jian)、硬件(jian)、芯(xin)片、驗(yan)證等方面的(de)(de)(de)綜合(he)能力(li)。
登臨科技GoldwasserTM GPU+產品(pin)在現有市場主流(liu)的(de)GPU架構(gou)上,創新采(cai)用(yong)軟硬件協同(tong)的(de)異構(gou)設計。GPU+異構(gou)設計讓產品(pin)在對客(ke)戶實(shi)際業務繼承在現有生(sheng)態上的(de)投入、在保證極高(gao)兼容(rong)性(xing)的(de)同(tong)時,相比傳統GPU在AI計算上性(xing)能(neng)和能(neng)效均有明顯(xian)提升(sheng),大(da)大(da)降低了外部(bu)帶寬的(de)需(xu)求(qiu),顯(xian)著降低客(ke)戶總擁有成(cheng)本。
摩爾線程(cheng)創立于2020年10月(yue)(yue),去年12月(yue)(yue)獲得(de)天(tian)使輪(lun)融(rong)資,今年2月(yue)(yue)22日獲得(de)Pre-A輪(lun)融(rong)資。摩爾線程(cheng)致(zhi)力于構建中國視覺(jue)計(ji)(ji)算(suan)和人工智(zhi)能領域計(ji)(ji)算(suan)平(ping)臺(tai),研發(fa)全球領先(xian)的(de)自主創新GPU知(zhi)識產(chan)權,其GPU產(chan)品線覆蓋(gai)通(tong)用圖形計(ji)(ji)算(suan)和高(gao)性能計(ji)(ji)算(suan)。公司核(he)心成員(yuan)主要來自英(ying)(ying)偉達、微軟、英(ying)(ying)特爾、AMD、ARM等,覆蓋(gai)GPU研發(fa)設計(ji)(ji)、生(sheng)產(chan)制造(zao)、市場(chang)銷(xiao)售、服(fu)務支(zhi)持等完整架構。
13、國產GPU新星:翰博半導體
翰(han)博半導(dao)體成立(li)于2018年12月(yue),立(li)志于發展成為(wei)國(guo)際(ji)頂尖的(de)芯片公司(si),立(li)足于中國(guo)市場(chang)(chang),填補國(guo)內市場(chang)(chang)國(guo)產芯片的(de)空白,為(wei)智(zhi)能(neng)應用提供高效算力,為(wei)人工智(zhi)能(neng)創新以及應用落(luo)地賦(fu)能(neng)。
翰(han)博半(ban)導(dao)體(ti)擁(yong)有國內外專家組成的團隊(dui)。公司(si)核(he)心(xin)員工來自世界(jie)頂級的高科技(ji)公司(si),平均擁(yong)有15年以上的相關芯片,軟件(jian)設計經驗。
瀚博的(de)產品注重計算機視覺及(ji)視頻處理的(de)優化,提供豐富的(de)特性(xing),高效(xiao)的(de)性(xing)能(neng)/功(gong)耗;適用多(duo)個人(ren)工智能(neng)領域。產品覆蓋從邊(bian)到云,SOC及(ji)服(fu)務器(qi)市場(chang)。
翰博半導體CEO—錢(qian)軍(jun)擁(yong)有(you)25年以上(shang)高(gao)端芯(xin)(xin)片設計(ji)經驗(yan)和(he)(he)40多款芯(xin)(xin)片設計(ji)和(he)(he)量(liang)產(chan)(chan)的經驗(yan),帶隊(dui)設計(ji)量(liang)產(chan)(chan)業界第一顆7納米圖(tu)像處理(li)器(qi)和(he)(he)AI服(fu)務(wu)(wu)器(qi)芯(xin)(xin)片,曾任AMD高(gao)管Senior Director,直接負(fu)責設計(ji)團隊(dui)超過800人,全面(mian)負(fu)責GPU( 圖(tu)像處理(li)器(qi)和(he)(he)AI服(fu)務(wu)(wu)器(qi))芯(xin)(xin)片設計(ji)和(he)(he)生產(chan)(chan),現在市場上(shang)所有(you)AMD Radeon圖(tu)像處理(li)器(qi)和(he)(he)AI服(fu)務(wu)(wu)器(qi)都是由其(qi)帶隊(dui)開發(fa),包括(kuo)多個(ge)系列(lie)DGPU和(he)(he)MI系列(lie)產(chan)(chan)品。
14、國產GPU新星:燧原科技
燧(sui)原(yuan)科技成(cheng)立于2018年3月,專(zhuan)注(zhu)于人工智能(neng)領域云端算力平臺(tai),致(zhi)力為人工智能(neng)產(chan)(chan)業發展提供普惠的(de)基礎設施解決(jue)方案,提供自主知識(shi)產(chan)(chan)權(quan)的(de)高(gao)算力、高(gao)能(neng)效比(bi)、可編(bian)程的(de)通用人工智能(neng)訓練和推理產(chan)(chan)品。
燧(sui)(sui)原科技(ji)的產品技(ji)術由訓練、推(tui)(tui)理、軟(ruan)件(jian)平(ping)臺(tai)構成。其中,訓練業務包含(han)(han)加速(su)卡 “云燧(sui)(sui)T10” 和“云燧(sui)(sui)T11”;推(tui)(tui)理業務包含(han)(han)加速(su)卡 “云燧(sui)(sui)i10”;軟(ruan)件(jian)平(ping)臺(tai)包含(han)(han)“馭算”。
“云(yun)燧(sui)”系列加速(su)卡采(cai)用自研DTU架構(gou),支(zhi)持ESL高速(su)互(hu)聯和(he)開放生(sheng)態。 “云(yun)燧(sui)”芯片(pian)采(cai)用格羅方德的(de)12nm FinFET工藝(yi),結合 2.5D先進(jin)封裝,擁有141億(yi)晶體管(guan)和(he)16GB HBM2顯存,在FP32的(de)算力和(he)能效比方面領先GPU。
計算及編(bian)程平(ping)臺“馭算”,由燧原自主研發,支持(chi)主流深度(du)學(xue)習框架(jia),并針對邃思(si)芯片進行了(le)針對性優(you)化。
智東西認為,GPU設計之初是(shi)為了(le)圖(tu)像處理(li),但是(shi)隨著(zhu)技術的不(bu)斷迭代升級,GPU的功能已經不(bu)僅限(xian)于“畫圖(tu)”,憑借在并行處理(li)和通(tong)用計算的優勢,GPU在服務器(qi)、汽車、人工(gong)智能、邊緣(yuan)計算等(deng)領域已經開始大放異彩。現階段,雖然(ran)國(guo)產GPU與英偉(wei)達、AMD等(deng)世界巨頭(tou)差(cha)距明顯,但在一些空(kong)白(bai)的細(xi)分領域或許有很大的“彎道超車”空(kong)間。