智東西(公眾號:zhidxcom)
文 | Lina 曉寒

9月26日的北京,天氣陰涼,略有霧霾。

智東西9月26日北京現場消息,今天,英偉達2017 GTC China(GPU技術大會中國分會)的最重磅環節——CEO黃仁勛(粉絲愛稱“老黃”)主題演講——開始了!智東西作為特邀媒體,從大會現場第一排發來報道(文末附全場PPT下載)

GTC大會已經不僅僅是通常意義理解的“顯卡技術大會”了,而是一場展示英偉達AI、VR、深度學習等眾多新技術的重要窗口,在早上8點多就引來上千人到場。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

本次演講的幾大亮點如下:推出新版TensorRT 3深度學習應用平臺;推出世界第一款機器人芯片XAVIER;宣布阿里、百度、騰訊“三朵云”數據中心都開始使用Tesla V100新款GPU;與海康威視合作打造AI城市;宣布與京東在倉儲機器人與送貨無人機方面的合作等。

5月時,英偉達曾在美國主會場舉辦2017 GTC,并推出了新款GPU Tesla V100以及DGX-1超級電腦、HGX-1云服務器、ISSAC機器人訓練平臺等眾多新品,智東西作為特邀媒體,受邀來到硅谷對其進行過詳細的深度報道(多人VR交互、30億刀的顯卡、神秘ISAAC黑科技……干貨滿滿的GTC 2017一文看盡

和5月的GTC相比,本次GTC China上推出的新品與宣布的合作案例大多集中在深度學習推理應用(Inference)領域。可以看得來,憑借著超高計算性能的GPU在深度學習訓練(Training)領域賺得盆滿缽滿的英偉達,現在也想要朝應用端發力了。

一、開場:跟5月的GTC差不多

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

(老黃今天還是一身萬年不變的經典黑色皮衣開場)

9點十幾分,主題演講稍稍延遲開場。名為“i am ai”的開場視頻以“我是科學家”、“我是治愈者(healer)”、“我是保護者”、“我是老師”等第一人稱作為旁白,介紹了以英偉達GPU驅動的人工智能如何在數據、醫療健康、翻譯、機器人、自動駕駛、教學等等領域進行應用。

這個開場視頻復用了與5月GTC的開場視頻架構,但是加入了本土化的科大訊飛、圖森駕駛等鏡頭。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

與5月的GTC一樣,老黃在開場時講起了最近的幾年里摩爾定律開始失靈,人們需要花越來越多的成本來換取計算能力的些微增加。而且,與摩爾定律逐漸失靈形成對比的是GPU的崛起。

隨著人工智能與深度學習在近年來的興起,以GPU驅動的計算已經隨處可見,英偉達的AI平臺也支持目前所有深度學習框架、所有云與數據中心,并設立了Inception深度學習創企計劃,目前已經有1900家企業參與。

而且,CUDA開發人員的數量也在5年里增長了14倍,超過60萬人,CUDA SDK的下載量也達到180萬。世界各地的AI初創公司不斷涌現,今年為止已經獲得了66億美元的融資,而且今年發表的深度學習論文也已經超過了3千篇。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

現在有不少AI應用都是此前人類難以想象的,比如利用深度學習自編碼器完成只有部分被渲染的逼真圖像、自動生成語音+3D人臉動畫、人體動作動作實時追蹤、人體動作模擬等等。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

接著,老黃又講起了5月曾經發布的VR多人交互平臺Holodeck,不過這一部分跟(多人VR交互、30億刀的顯卡、神秘ISAAC黑科技……干貨滿滿的GTC 2017一文看盡)展示的相同,沒有增加新內容。

二、將阿里、百度、騰訊“三朵云”納入囊中

在5月的GTC上,老黃請來了亞馬遜AWS和微軟Azure云,而這次的GTC China上,又怎么少得了國內云服務合作伙伴呢?

這次老黃宣布,阿里云、百度云、騰訊云,國內三個代表云服務商都開始用上咱們新推出的Tesla V100 GPU啦!

其實在此之前,BAT三朵云的數據中心里面已經在使用英偉達的GPU了,這次老黃只是強調下他們都已經用上Tesla V100啦,同時BAT作為深度學習思想領袖贊助商來露個臉~

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

(Tesla V100參數圖)

Tesla V100是英偉達在今年5月推出的新款GPU,號稱“世界上最昂貴的計算能力項目”——投入30億美元研發。這款GPU采用的是臺積電的12nm Finfet工藝,有210億個晶體管,采用Volta Tensor Cores架構,單個計算單元比原本的速度快了12倍。

此外,老黃還宣布,國內的HGX云計算服務器將會由華為、浪潮、聯想作為OEM商進行代理。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

HGX-1是英偉達在今年5月GTC上推出的一款專門用于GPU云計算的超級電腦,適用于公有云、深度學習、圖形渲染、CUDA計算等。配備了8塊Tesla V100 GPU,售價14.9萬美元。

三、重磅:新版深度學習應用平臺TensorRT 3

深度學習分為訓練(Training)和推理應用(Inference)兩個部分,數據科學家們在將一個神經網絡通過大量數據訓練好之后,再將這個訓練好的神經網絡應用到硬件上,進行人臉識別、語音識別等的AI軟件應用。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

然而,從CNN到LSTM再到GANs,現在的深度學習神經網絡框架正變得越來越復雜、越來越多樣、而且在日新月異地變化著,訓練環節的復雜性自然也帶來了應用環節的復雜性——TensorRT就是為了解決這一問題的。

這次GTC China上,老黃帶來了新一代深度學習應用平臺TensorRT 3。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

TensorRT是一款可編程應用平臺(Programmable Inference Platform),什么意思呢?就是你將一個神經網絡訓練好了之后,可以通過TensorRT可編程平臺,簡便快捷地將這個訓練好了的神經網絡部署(Deploy)到Tesla V100、Jetson TX2、Drive PX 2等英偉達的GPU硬件上。

跟上一代相比TensorRT,本次的TensorRT 3有三方面的進化:

1)增加支持的深度學習框架:新一代TensorRT支持TensorFlow、mxnet、Caffe2、PYTORCH、theano、Microsoft Cognitive Toolkit、Chainer、還有百度的PaddlePaddle——幾乎覆蓋了市面上所有的深度學習開源框架。

2)增加支持的GPU:現在TensorRT可以應用到英偉達的全線GPU中,從幾瓦到幾百瓦的Tesla V100、Tesla P4、Drive PX2、Jetson TX2,以及NVIDIA DLA框架都可以支持。

3)增加應用:原先TensorRT相對而言更擅長圖像處理等方面的深度學習應用,現在無論是云、數據中心、機器、機器人等等,都可以輕易處理。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

此外,TensorRT還被老黃稱之為“世界上最快的TensorFlow應用平臺”,在Tesla V100上應用的性能能達到CPU的幾十到數百倍,并且處理圖像時只有7ms的延遲,處理語音的延時不到200ms(前不久谷歌用于數據中心的TPU也是7ms的延遲)

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

為了達到這樣的高效、快速、低延遲、高能效比的效果,TensorRT采用了層級融合、動態內容、多層級并行計算等技術,而且采用的是8bit計算。

工程師將訓練好的深度學習神經網絡應用在GPU板卡上時,最快只需要幾秒鐘就能成功部署,而且需要人工操作的地方非常少。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

而且,通過遷移學習,英偉達可以提供事先部分訓練好的神經網絡(Pre-Trained Network),在一個已經經過大量數據訓練過的網絡的基礎上,用戶加入自己少量的需要訓練的部分數據,就可以得到很好的效果。

由于Tesla V100相較于CPU加速了40倍,所以只需要一臺8GPU服務器就可替代160臺雙CPU服務器或者4個機架,每臺V100服務器可以節省50萬美元。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

(4個機架的CPU和1個機架的GPU)

在這一頁PPT里老黃來來回回切換了4、5次,簡直玩得不亦樂乎。而且老黃一而再、再而三地強調了“省錢、省錢、省錢”,“Saving Money”從這一刻開始貫穿了全場演講……

四、TensorRT的合作伙伴與應用案例

阿里云、百度云、騰訊、京東、科大訊飛也都宣布成為英偉達GPU應用加速平臺的合作伙伴,他們正競相講AI融合到商業、社交、新聞、凸顯等應用中。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

(用CPU和GPU來識別花朵)

現場的Demo中,老黃展示了用CPU和V100+TensorRT 3來識別花朵的速度差別,GPU將近快了100倍。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

第二個Demo則是通過語音識別,在《權力的游戲》中通過搜索臺詞,直接定位到劇中角色講出這句臺詞的鏡頭。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

接著,老黃宣布,英偉達將和海康威視一起打造AI城市。海康威視的安防項目端到端解決方案中將會從訓練到應用都使用英偉達平臺。據老黃介紹,這是英偉達和海康威視兩年以來長期合作的成果。

到了2020年,城市里將會有十億攝像頭,幫助尋找失蹤人口、智能控制交通、協助執法等等,城市將變得更智能、更安全。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

此外,英偉達還和華為、大華、阿里巴巴等公司在智能城市、智能交通、虛擬保安等方面進行了合作。

五、L3-L5自動駕駛平臺

這次GTC China并沒有公布新的產品,黃教主重新介紹了一下英偉達在自動駕駛方面的動作——AV(AutonomousDriving ) Computing Platform自動駕駛計算平臺。

從縱向來看,該平臺共有四層,如下圖。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

其中DriveOS為自動駕駛汽車所搭載的軟件操作系統,這一部分是各個自動駕駛公司的東西,英偉達提供的主要是計算能力。

這里計算能力的核心就是基于英偉達GPU的計算模塊Nvidia Drive PX。

目前Drive PX已經發展到了第二代,被稱為Drive PX2,通過組合不同數量的Drive PX2可以支持不同級別的自動駕駛能力。

如1塊PX2可以支持L2級的自動駕駛,4塊PX2則可以支持L4/L5級別的自動駕駛等。

補充一點,PX2上搭載的是基于Pascal架構的顯卡,而英偉達在5月時也推出有升級版的產品Drive PX Xavier。搭載了英偉達那個花費30億美元研制出來的Volta架構的顯卡和8個CPU,被英偉達稱之為迄今為止最復雜的片上系統,支持L4/L5級別自動駕駛能力。Drive PX Xavier 2018年第一季度為早期合作伙伴推出,第四季度全面出貨。

光有硬件不行,為了讓開發者更好的使用PX2與PX Xavier系列產品,英偉達也很貼心的推出了配套的開發者工具——英偉達DriveWorks。

有了硬件,有了開發者工具,自動駕駛技術開發者就可以將自己的軟件系統部署在這些計算平臺上,并運行各種深度學習的網絡。

有了深度學習網絡,自動駕駛汽車就能對車載的激光雷達、毫米波雷達、超聲波雷達、攝像頭等傳感器的數據進行處理,從而幫助汽車實現感知、定位、規劃三大功能,完成自動駕駛功能。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

同樣是得益于GPU在深度學習方面的先天優勢,老黃表示全球有145家從事自動駕駛技術研發的公司在使用英偉達的自動駕駛平臺。

其中包括國內的Momenta、獲得英偉達投資的圖森未來、在前一段剛剛展出了自動駕駛快遞車的京東等公司。

有意思的是,黃教主這次并沒有單獨提及GTC上提出的,包含有Auto-Pilot、Mapping-to-Driving、Guardian Angel、Co-Pilot等功能的AI Car Platform。

最后老黃也表明英偉達的野心其實并不只在自動駕駛汽車,其未來的野心是為無人機、機器人等所有智能設備提供類似的計算能力。

六、從硬到軟,打造機器人大腦

會上,老黃正式宣布推出了世界第一款用于自動機器人的處理(芯片)——Xavier,上文提到的自動駕駛Drive PX Xavier芯片是它的一個架構分支。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

Xavier集成了8核CPU、Volta TensorCore & CUDA GPU、傳感器、8K HDR VP、以及CVA。可以應用在30TOPS的計算機視覺、深度學習等機器人所需要的技能領域,有著超高計算力與超高能效比。

這款處理將于2018年第一季度提供給早期合作伙伴,2018年第四季度全面推出。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

與此同時老黃還宣布,英偉達的Xavier將會用在京東的倉儲機器人jROVER+京東送貨無人機jDRONE等一系列自主機器人當中。據京東表示,到了2022年,將會部署10億自主機器人。

現在,這些自主機器人有了硬件大腦,可是軟件大腦怎么辦呢?

別急,今年5月時,英偉達推出了一個用于訓練機器人的增強學習世界模擬器——ISAAC機器人訓練模擬世界(ISAAC Robot Simulator)模擬真實世界的邏輯、原理、物理定律等,然后再將機器放進這個世界里不斷訓練。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

你可以在這個世界里對成千上萬個機器人進行超越物理時間規律的快速訓練,然后找到里面最聰明的一個機器人,將它的“大腦”程序復制出來,重復這個過程,直至選出最聰明的一個神經網絡,將它部署到XAVIER上,再將這塊芯片放進機器人的“腦袋”中。

七、日益興旺的AI應用需求

正如前文所言,和5月的GTC相比,本次GTC China上推出的都是集中在深度學習推理應用(Inference)領域的新款計算平臺TensorRT 3、又或是各種BAT云服務商、京東機器人等的應用端合作落地案例。

憑借著超高計算性能的GPU,英偉已經在深度學習的兩個環節之一:訓練(Training)這一領域幾乎占據統治級地位,此時也想要朝另一個環節:推理應用(Inference)端發力了。

如今,LinkedIn上每天有著2萬億條信息需要被個性化處理、科大訊飛每天有5億用戶需要使用語音識別技術、谷歌翻譯每天要處理1400億個單詞、YouTube上每天有600億幀視頻被上傳……在這個數據爆炸的年代,我們對AI應用的需求越來越強大,也越來越迫切。

以上種種問題都可以用AI進行處理,但問題在于現在的數據中心很多都是幾年前針對搜索引擎等互聯網應用打造的,無論是框架還是工作負載都不適宜進行實時AI應用落地。

英偉達的合作伙伴們——像是擁有十億用戶基礎的微信語音轉文字功能、擁有1千頻道的京東需要智能視頻分析、以及日均80億條信息的阿里巴巴需要的翻譯功能——在其數據中心里使用了英偉達GPU后,都在速度、準確率、延遲、能效比方面有了極大的提升。

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

當前人工智能板卡主要分為GPU、ASIC、FPGA。代表分別為NVIDIA Tesla系列GPU、Google的TPU、Xilinx的FPGA。GPU的優勢在于性能強大、生態成熟,但從另一個角度來說,跟FPGA、ASIC等板卡比起來也會遇到功耗較大、價格較貴、某方面性能不夠極致等弱點。

最近華為推出的麒麟970手機芯片和蘋果推出的A11手機芯片等都屬于ASIC(專用集成電路,Application Specific Integrated Circuit)根據特定的需求而專門設計并制造出的芯片。

結語:大勢所趨的端智能

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】

正常演講中,老黃已經很少提到訓練部分了,大部分都在將深度學習的應用環節。推出新版TensorRT 3深度學習應用平臺;推出世界第一款機器人芯片XAVIER;宣布阿里、百度、騰訊“三朵云”數據中心都開始使用Tesla V100新款GPU;與海康威視合作打造AI城市;宣布與京東在倉儲機器人與送貨無人機方面的合作等……從本次GTC China的種種落地案例中我們可以看到,英偉達正一步步地努力朝AI應用端發力。

而從日益興旺的AI板卡市場可以看出,端智能(將AI應用落地到硬件終端上)已經成為大勢所趨,無論是英偉達的通用GPU,還是谷歌TPU、華為970、蘋果A11等一系列定制化板卡,都是讓AI在硬件終端開始由軟到硬地落地的表現,是人工智能進一步產業化落地的典型代表。


每日一頭條

趨勢·深度·犀利·干貨,最專業的行業解讀

深喉爆料、投稿:guoren@jmfly.net

黃仁勛北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎!【附百張完整PPT】