智東西(公眾號:zhidxcom)
文 | 心緣
這家AI芯片創企已經潛伏近三年了。
2016年底,谷歌TPU核心團隊的十個人中,有八人悄悄組隊離職,合伙創辦了新公司——Groq。
谷歌TPU,AlphaGo擊敗世界圍棋冠軍背后算力的核心功臣,一戰成名,帶動起全球專用IA芯片市場的火熱。它的核心設計人員外出創業,毫無疑問被外界視作無法忽視的存在。
明知被產業熱切地關注著,這家創企卻相當任性,在官宣要在2018年發布第一代AI芯片后,它就再次進入神隱狀態,任你外界怎么猜測,我自巋然不動。
這一神隱就神隱到了今年9月。Groq被曝將參展美國計算機歷史博物館舉辦的AI硬件峰會,多少人正期待Groq成為這場峰會的最大熱點時,Groq又相當任性地撂挑子不干了,空留其logo顯眼而尷尬地留在了橫幅上。

▲在AI硬件峰會上的Groq徽標和空椅子(圖源:Tirias Research)
10月21日,Groq突然更新了博客《世界,認識Groq》。這一篇博客,似乎在無聲地宣告,Groq即將要高調地回歸大眾視野。

一、預告400TOPS算力的芯片
2017年還算是Groq有點活躍的一年。
3月,Social Capital風險投資家、前Facebook高管Chamath Palihapitiya告訴美媒,他花了1.5年招攬谷歌TPU背后的工程師。
4月,Groq被報道拿到由Chamath Palihapitiya領投的1030萬美元啟動資金,這是Groq第一次出現在公眾視野。
7月,賽靈思前全球銷售執行副總裁Krishna Rangasaye加盟Groq,擔任首席運營官(COO),不過現在Groq的COO已變成Adrian Mendes。
11月,Groq在官網宣布要在2018年發布第一代AI芯片產品,號稱這款芯片的運算速度將可以達到400 TOPS,每瓦特能進行8萬億次的運算。
而當時谷歌最新一代的TPU算力才達到180TOPS,這意味著Groq性能將超谷歌TPU兩倍還多。
而此時距離Groq成立才短短一年,如果擱在其它創企身上,可能還會被質疑是說大話,偏偏Groq由Google X的前工程師道格拉斯·懷特曼(Douglas Wightman)和喬納森·羅斯(Jonathan Ross?)等共同創立。早期谷歌TPU團隊的十位核心成員中,有八位都來到了這家公司。

▲Groq創始人兼首席執行官Jonathan Ross
包括CEO 喬納森·羅斯(Jonathan Ross)在內的Groq創始團隊,是早期TPU十人核心設計團隊中的八人。
谷歌曾在短短約14個月的時間里發布首個TPU,Groq能在超短時間內展示其芯片似乎也不是什么難以理解的事情。
二、沉寂一年,突然回歸
然而,在無數人的翹首以盼中,Groq卻并沒有如期亮出它們打磨的核心利器。
時間一晃而逝,轉眼到了今年9月,美國證劵交易委員會公布了一項文件,顯示Groq正目標籌集約6000萬美元的資金。這一文件顯示它已經融資超過5200萬美元,至少有16位投資方為這新的一輪融資做出貢獻。

同樣在9月,當大家都以為Groq要帶著它的芯片產品一起露面了,它又出人意料的“放了AI硬件峰會的鴿子”。
當美媒終于聯系上Jonathan Ross,他的回復卻顯得些微輕描淡寫。
“我們有一句話:展示,不要告訴。”Jonathan Ross說,他們本打算在AI硬件峰會上做演示,但他們不得不將資源轉移給客戶,無法進行演示,因此他們決定退出。
或許正如Jonathan Ross所言,Groq的AI芯片產品已經獲得客戶的認可,Groq終于開始主動揭開神秘的面紗,以博客的方式陸續透露出關于其芯片產品差異化的拼圖。

在Groq官網的首頁,Groq芯片的性能顯示為400 TOPS,但除了知道這是INT8計算的最高性能,可以處理整數與浮點運算外,我們尚未得知要達到這一性能還有哪些其他條件。
有趣的是,盡管Groq創始團隊脫胎于谷歌TPU團隊,但他們既沒有在谷歌TPU,也沒有在GPU、GPU、FPGA等架構上做迭代,而是嘗試一種新的體系架構。

▲截至目前,Groq擁有70名全職員工,已籌集了6700萬美元的資金
三、AI推理需要更簡化、更可擴展的架構
當前,處理器架構的復雜性不僅阻礙開發人員生產力,也阻礙著AI應用程序和其他計算繁重工作負載的采用。
在Jonathan Ross看來,由于對傳統服務器群集的投資已達到計算成本壁壘,處理推理任務的目標時獲得大量的并行吞吐量,而現有的設備已經被擠得水泄不通,即便增加物理處理器的數量,也無法實現更快、更有效的神經網絡處理。
同時,CPU、GPU等標準計算體系結構擠滿了硬件功能和元素,這些硬件和元素對推理性能沒有任何幫助。為了每秒執行越來越多的操作,芯片變得越來越大、越來越復雜,具有多個內核、多個線程、片上網絡和復雜的控制電路。
為了提高軟件性能和輸出,機器學習模型的開發人員要面對復雜的編程模型、安全問題,以及由于處理抽象層而導致的對編譯器控制的可見性的喪失。
另外,據Ross回憶,谷歌Jeff Dean在TPU推出前曾做過數學運算,分享說他們雖然可以訓練生產級別的模型,但由于價格太昂貴,他們無力使用現有架構來部署它們。
“如果他們要為所有人部署語音識別,那么谷歌必須將數據中心的數量增加2-3倍,再增加20到40個。這些成本以十億計。如果您僅出于語音識別的目的,以另一種方式對運算成本進行數學計算,則他們必須將其計算能力提高一倍。”
要在這些約束條件下獲得更高的機器學習性能,需要依靠對硬件體系結構有深入了解,并進行費力的手動優化。

面對這一現狀,Groq專門針對機器學習應用程序和其他計算密集型工作負載的性能要求,設計了一種更簡化、更可擴展的新型處理體系結構,以提供更高的吞吐量和更易用性。
這種新架構降低了傳統開發的復雜性,使得開發者可以專注于算法,而無需考慮讓其解決方案適應硬件,從而節省了開發人員資源,也使大規模部署AI解決方案變得更加容易。
四、Groq高性能架構的三大特點
根據Groq的博客,Groq芯片是通用深度學習推理芯片,是高性能、低延遲、計算密集型工作負載的理想平臺。
具體而言,其高性能架構的愿景基于技術創新的三個關鍵領域:
1、軟件定義的硬件
受軟件優先思想的啟發,Groq將執行控制和數據流控制從硬件轉移到了編譯器。

所有執行計劃都在軟件中進行,從而釋放了寶貴的硅空間,并提供了額外的內存帶寬和晶體管來提高性能。
軟件從本質上協調所有所需的數據流和時序,以確保計算不會發生停頓,Groq的芯片允許在編譯時預先知道所有延遲,從而使延遲和性能可預測。
2、芯片創新
Groq的簡化架構從芯片上去除了對AI沒有任何處理優勢的多余電路,從而實現了更高效的芯片設計,每平方毫米的性能更高。
這消除了對緩存、核心到核心通信、推測性和無序執行的需求。
Groq的芯片將大量的算術邏輯單元(ALU)與大量的片上存儲器結合在一起,并具有超過60TB/s的充足帶寬來輸送給大量ALU。
根據EETimes看到的幻燈片顯示,其芯片中三列ALU與兩個大內存條交錯,ALU約占芯片面積的40%,內存接近芯片面積的50%。
通過增加跨芯片總帶寬和用于計算的晶體管總數的更高百分比,可以實現更高的計算密度。
3、最大程度提升開發速度
Groq系統體系結構的簡單性消除了手工優化,配置文件和主導傳統以硬件為中心的設計方法的專業設備知識的需求。
相反,Groq專注于編譯器,從而使軟件需求能夠驅動硬件規范。其編譯器已經設法將編譯時間壓縮至秒。

在編譯時,開發人員可以精確獲知內存使用情況、模型效率和延遲。
這聽起來可能不是特別重要,但隨著芯片規模擴大,在數據中心進行擴展會變得更困難,假設擴展到數千個芯片,如果有一個因為延遲慢了,那么有60%的機會每一個查詢都將是慢的。
Groq芯片的這種確定性設計,意味著用戶可以在將多芯片擴展連接時,精確把控運行一次計算需要多長時間,使得用戶可以更加專注于算法并更快地部署解決方案,從而簡化了生產流程。
四、像,但不是FPGA
雖然軟件定義的硬件與確定性操作相結合的概念可能使人想到FPGA,但Jonathan Ross強調,Groq的芯片絕對不是FPGA。
Ross表示,FPGA可在每個周期重新配置,這與他們的芯片工作原理相似,但Groq的芯片不是FPGA,它沒有查找表,用戶可逐周期完全更改芯片的功能,能確切知道芯片的每個部分在任何時刻都在做什么,這種控制級別非常精細。
此前另一家長期隱身的AI芯片創企SambaNova也有提出軟件定義硬件的概念,他們正在開發可重構的數據流體系結構并致力于用于編程加速器的語言。
在Tirias研究首席分析師Kevin Krewell看來,Groq的方法與常規FPGA和SambaNova的方法就是很像,而且他對迄今為止Groq所分享的內容表達一些擔憂。
Kevin Krewell擔心的是其每平方毫米的效率計算,設計是靜態編譯的,這意味著一次只能處理一種類型的機器學習算法,而某些任務需要多種不同的機器學習模型,比如圖像處理和語音處理。
五、目標AI推理,適合自動駕駛與金融
Groq工程部副總裁Michelle Tomasko表示,有硅片后,他們第一天就上電了,第一周就在芯片上運行了程序,六周后又向客戶提供了樣品。
Tomasko詳細介紹了TSP的確定性將如何改善客戶的系統驗證時間,并補充說,能夠在芯片推出之前就很好地交付編譯器的功能,意味著客戶可以成功地將他們的模型面向TSP的體系結構。

▲Groq工程部副總裁Michelle Tomasko
在加入Groq之前,Tomasko曾在谷歌工作了3年,此前還曾在NVIDIA工作。
她說,NVIDIA可以做暴力疊加,而Groq這種架構能能迅速靈活地執行任務,這是他們領先于NVIDIA的關鍵。

▲Groq首席運營官Adrian Mendes
Groq的目標是數據中心和自動駕駛汽車中的推理應用。
其首席運營官Adrian Mendes表示,“微秒級”的延遲與整體確定性相結合,使得Groq的芯片適合于自動駕駛、金融等安全關鍵型應用。
“從8月開始,我們已經向少數客戶提供了硬件。”?Mendes說,“我們的硬件現在位于客戶數據中心中……他們正在這些板上運行程序,并從中獲得很好的結果。”
結語:AI推理市場行路難
Groq在創辦之初的確帶給了人們很多的期待,但不可否認的是,它的神秘主義盡管使得部分人對它更加感興趣,卻也伴隨著AI芯片熱度的退卻,消磨了大眾的熱情和耐心。
從當前透露的信息來看,有著高起點的Groq確實有很多關于AI推理市場的思考,我們也可以看到其創新架構的核心組成就是編譯器,但是這一架構究竟能不能獲得足夠高的市場反響,還需要等時間來證明。
就目前AI芯片市場格局,Groq要想突圍AI推理市場還面臨很多阻礙。且不論NVIDIA、英特爾依然是阻擋在眾多創企面前的兩座大山,要想和巨頭硬碰硬,不僅要有源源不斷的資金支持,還要構建能支持各種主流通用機器學習框架的軟件工具,這對大多數AI芯片創企來說,都是亟待解決的難題。
原文來自:ElectronicDesign,EE Times,Groq