智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西2月20日報道,繼DeepSeek后,又有一家大模型App力壓ChatGPT,今日登頂美區App Store免費榜。它就是馬斯克大張旗鼓跟OpenAI叫板的底氣——號稱「世界最強AI」的Grok 3.0!
老板馬斯克顯然對這一成績非常滿意,順帶發預告:這是沒語音模式版本的,接下來幾天還會上更多功能哦。
Grok 3.0沖得這么猛,是因為馬斯克放了個大招。
馬斯克在今天日理萬機、忙于為DOGE政府改革沖鋒陷陣的間歇,特意抽出空來,轉發xAI的推文宣布:Grok 3.0向所有人免費開放!
▲馬斯克推文(由谷歌翻譯英譯中)
xAI發文寫道:“就是這樣:世界上最聰明的AI,Grok 3,現在免費使用(直到我們的服務器崩掉)。”
此言一出,效果立竿見影,看見免費福利后,網友們行動上一點不含糊,立刻把Grok App下載量沖到第一。
馬斯克創辦的這家大模型獨角獸企業,將Grok 3稱作“史上最強大的模型”,稱其在推理、數學、編程、世界知識、跟蹤任務五項能力上全面登頂。
在聊天機器人盲測榜上,Grok 3也做到了拳打Gemini 2.0,腳踢ChatGPT 4o,超越DeepSeek R1,并開創了首個1400分。
Grok 3還介紹了兩項新功能:DeepSearch(深度搜索)和Thinking(思考),并將很快通過API發布標準版和推理版本的Grok 3。
其中DeepSearch是個強大的AI agent,可以快速綜合關鍵信息,根據復雜事實和觀點進行推理,并提煉出清晰的結果。
Thinking則是使用推理模型,尤其適合處理數學、科學、編程任務。免費用戶每天的使用次數有限制。
Grok 3支持中文輸入,我們把兩個功能都上手體驗了一番。先試用了DeepSearch功能。我用中文要求Grok 3整理2016-2025年全球動畫電影票房冠軍的登頂時間和票房金額,結果2025年的明顯不對。
為了避免是中文翻譯導致的問題,我又開了一個新的對話頁面,用英文問一遍,這次Grok 3在2025年列出了哪吒2。
再讓Grok 3全面概述過去一年來量子計算的最新進展,它的思考過程很快,不到1分鐘就給出一份調研報告,并附上了每條信息的參考鏈接。
從完整性來看,Grok 3并沒有滿足我的要求,它在報告里清晰劃定了時間區間是“2024年2月至2025年2月”,在聯網搜索了62個來源的情況下,列表中沒有包含微軟昨晚剛發布的首款量子芯片,信息不夠新和全。
換Thinking功能試試。我們拿之前測試DeepSeek R1是否是滿血版的經典指令“一個漢字具有左右結構,左邊是木,右邊是乞。這個字是什么?”來考考它。
經過52秒的英文思考,Grok 3得出結論:若按最接近的猜測,或許是“杞”,但嚴格來說不符合。
可以說Grok 3回答得非常嚴謹了,過關!
換成另一個用來測出DeepSeek R1滿血版的中文網絡梗題,也沒有難倒Grok 3,而且這次思考只花了5秒。從這里開始,到之后所有的測試,Grok 3的思考過程都變成了中文。
不過考察時間邏輯與動態語境理解時,它思考得飛速,翻車得也飛速,回答說“昨天的當天是明天的昨天”。
讓它整理今天發生的AI新聞,做成一個適合發小紅書的格式,它輸出的結果也存在無法準確控制時間范圍的問題了,很多新聞都不是今天的。
再讓它設計界面,用奶酪黃作為主配色,并整理成html格式,打開界面的效果是這樣的:
問它如果有機會成為人類,你最想做什么,Grok 3的回答水平比DeepSeek R1差得有點多。DeepSeek R1能輸出一些戳人心窩的文字,Grok 3則是中規中矩的中文小學生水平。
按原著風格續寫《西游記》,Grok 3也是能理解對意思,但遣詞造句遠不如DeepSeek R1。
再試試Grok 3的中文毒舌能力,讓它一句話辣評幾個AI聊天應用。沒想到這對它來說挺費勁兒,它思考了足足將近8分鐘,最終輸出的內容非常一般:
對比我們之前用DeepSeek R1測得,R1的中文實力屬實一騎絕塵,用時短,思考快,文字淬毒:
總的來說,用Grok 3搜索信息效果不錯,但如果想用中文生成能力,還是得指望國內AI聊天助手。
就海外反饋來看,馬斯克和xAI的推文評論區高贊以夸聲和曬使用體驗居多,看來海外網友們對Grok 3總體比較滿意。有網友銳評:“我現在可以聽見千千萬萬的OpenAI賬戶正在關閉……”
不管怎么說,馬斯克這波給OpenAI添堵,添得相當成功,添得揚眉吐氣。
這下OpenAI在ChatGPT收費路上的絆腳石,又多了一塊大的。