智東西(公眾號:zhidxcom)
文 | Lina

在上周結束的英偉達2017 GTC(GPU技術大會)上,毗鄰英偉達展位的一個顯眼位置,一個深藍色的大盒子與十分搶鏡——這就是國內AI企業商湯科技的展位。商湯科技這次展示的內容包括以AI圖像/視頻識別技術為主的各項應用,包括智能視頻、手機影像、互聯網娛樂APP等。其中SensePose單目攝像頭動作估計解決方案是首次跟大眾亮相。

展會后,智東西與數家媒體共同對商湯科技CEO徐立進行了詳細專訪。

對話商湯科技徐立:解讀單目實時動捕技術SensePose

一、SensePose人體動作分析與姿態換恢復

SensePose是一套單目攝像頭解決方案,用戶站在攝像頭前揮揮手臂、動動腦袋,面前視頻里的皮影戲小人也會跟著你的動作而揮舞。用戶不需要佩戴傳感器就可以實現動作估計,降低了動作捕捉設備的制造成本,將關鍵點定位在10個像素以內的人體關節,從而在視頻中實時、準確地識別人體姿態。

對話商湯科技徐立:解讀單目實時動捕技術SensePose

(體驗SensePose)

徐立表示,SensePose的技術主要還是在于視頻的實時處理與分析,傳統的人體動作分析與姿態恢復需要用紅外光或結構光,而SensePose只需要用普通的RGB攝像頭就能夠完成需求,既降低了成本,又提高了。這套技術未來可以應用在游戲、AR等領域,現在商湯科技已經在跟部分游戲互動型公司洽談合作。

在去年GTC中國上,商湯還發布了一款視頻結構化處理系統SenseVideo。應用在安防監控視頻當中可以準確地檢測到人、車和非機動車,并且給它們打上所有的屬性和標簽,比如人的年齡、性別、穿著等。

二、牽手英偉達,輻射下游企業

除了在GTC上設立展位外,商湯科技還是英偉達的平臺戰略合作伙伴,兼本次GTC大會的贊助商之一。

對話商湯科技徐立:解讀單目實時動捕技術SensePose

其實,雖然商湯科技目前擁有2千多塊GPU,但是對于英偉達來說還不是一個非常巨大的量級。徐立表示,商湯與英偉達更主要的是生態鏈的合作,通過商湯在英偉達的底層架構上搭建的AI應用,可以輻射非常多的下游企業,比如使用商湯產品的安防、金融類客戶,都能漸漸培養成使用GPU的客戶,擴大下游生態鏈。

其中一個很典型的例子就是:當商湯科技的算法入圍中國網信辦視頻審查系統后,原始是用CPU的集群,商湯推薦使用GPU,因此網信辦幾乎完全重構了一套GPU系統。另一方面,英偉達的新產品也會第一時間與商湯進行對接,比如現在商湯科技的人臉識別系統SenseFace就跑在了英偉達今年3月剛剛推出的Jetson TX2上。(智慧城市背后的心臟 英偉達人工智能工作站Jetson TX2解讀

三、創業公司一定要站在技術前沿

隨著深度學習在應用中的顯著突破,近年來一大批人工智能初創企業開始逐漸涌現。而最近不少大型公司也在逐漸進軍這一領域,為客戶提供人工智能解決方案,初創企業該如何和這類大公司競爭呢?

徐立認為,大公司將會更加專注于其主營業務,比如谷歌的云技術也非常優秀,但亞馬遜的云服務仍舊占據市場主流,就是因為主營業務的重心側重不同。對于創業公司而言,如果全員專注于局部發力,在細分領域其實是“以多打少”的。

因此,對于技術創業型公司而言,公司一定要沖在該細分領域的技術最前沿,才能在市場競爭中占有優勢。舉個例子,商湯打造了原創的深度學習平臺,可以處理1207層的網絡;而目前如Facebook的Caffe2、谷歌的TensorFlow等開源框架在約300多層時便不足以滿足需求了。

四、人才是第一生產力

然而,人們對深度學習應用需求的迅速增強也帶來了一個問題——人才短缺。2017年以來,以深度學習為主的AI人才缺失問題已經引起了不少公司的強烈注意,Facebook與谷歌在內部打造人工智能學院,從內部工程師中進行培養的新聞也陸續見報。國內方面,從BAT到大大小小的企業都在進行人才的招攬與挖掘,比如微信事業群在3月時就曾一舉貼出30個AI高級學霸的招聘信息。針對這一現狀,智東西也詢問了商湯科技的解法。

徐立表示,商湯科技使用的是內生人才培養機制,由公司內部一大批有經驗的導師來自己培養。國內優秀且聰明的人才其實非常多,“大二、大三的學生真是非常厲害”,因此商湯整個團隊相對比較年輕,而且第一更熟悉公司業務,第二便宜很多。

對話商湯科技徐立:解讀單目實時動捕技術SensePose