智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 云鵬

智東西9月27日報道,近日,月之暗面正在小規模灰度測試Kimi的Agent模式“OK Computer”OK Computer的目標是通過更多輪次推理、更多工具調用、更多token消耗,帶來更多智能,月之暗面將其定義為一款“全棧助理”。

在OK Computer模式下,Kimi將擁有自己的虛擬電腦,可以連續工作幾十分鐘,一步一步自主完成需求調研、規劃、分析、設計、開發等環節。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

▲OK Computer工作界面,左側為聊天框,右側為虛擬電腦(圖源:智東西)

與傳統依賴人工預設工作流的方式不同,OK Computer背后是月之暗面的原生Agent模型Kimi K2,能應對更多任務場景和突發情況。

借助端到端強化學習技術,Kimi K2掌握了文件系統、瀏覽器、終端、代碼、圖片生成、音頻生成等20多種工具的使用方式,擁有完成復雜任務所需的內在知識。

官方Demo中,OK Computer能夠直接交付功能模塊豐富的多頁面網站、移動端友好的Web應用以及可編輯的高品質演示文稿等產出物,也能夠把幾十萬行的Excel 數據進行可視化、交互式呈現。

目前,過去兩年曾經給予Kimi打賞鼓勵的用戶,將優先獲得OK Computer的體驗席位,這部分用戶打開網頁版Kimi即可收到邀請。

月之暗面稱,Agent模式下單個任務的token消耗量可達常規對話模式的幾十倍,OK Computer會根據服務器負載情況逐步擴大灰度測試范圍。智東西也對OK Computer的表現進行了體驗。

一、一手體驗海量數據分析能力,把英偉達投資策略捋清了

獲得OK Computer模式體驗機會的用戶,在Kimi首頁輸入框的左下角能找到OK Computer模式的切換按鈕,點擊后即可使用。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

官方提供了OK Computer模式下的一些模板提示詞,如果想體驗其能力,又不愿意撰寫復雜提示詞,可以直接選用這些模板。

智東西從中選擇了一項數據可視化任務,要求Kimi從雅虎財經獲取英偉達過去兩年的股價和財報數據,并分析股價的暴漲是否主要發生在財報發布前后、比較估值(市盈率P/E)與標普500科技板塊的平均值。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

此外,Kimi還需模擬在每次財報發布前一周買入,發布后一周賣出的交易策略,長期來看是否盈利。

設計風格方面,提示詞要求Kimi采用低飽和度的英偉達品牌色,保持布局簡潔和諧,僅使用純色(無漸變),并通過優雅圖標提升清晰度。

收到任務后,Kimi會在右側呈現它在虛擬電腦中進行的各類操作。在開始任務之前,它一般會撰寫待辦事項,對任務流程進行全面規劃,然后再正式執行。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

開啟OK Computer模式后,Kimi會列出其進行的每一步操作,包括使用數據源、使用文件、使用iPython、使用部署工具等等。分析完成后,它還用簡潔的語言給出了關鍵發現,并將分析圖表和結論做成了一個完整的網站,耗時5分鐘左右。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

生成結果:

//www.kimi.com/share/19988a15-7962-8c6a-8000-0000857b187e

可以看到,Kimi給出的網頁完成度較高,數據可視化清晰,跳轉邏輯正確,還提供了JSON格式的分析數據。

智東西核驗了頁面中部分關鍵數據的正確性,如英偉達市值、股價等等。在我們的抽查范圍內,數據基本無誤,不過英偉達的市盈率與雅虎財經上顯示的數據有出入。

這一任務考察的能力類型眾多,OK Computer模式下的Kimi需要從指定來源抓取正確數據和對應時間,理解提示詞中談到的各種金融術語,還需要利用Python進行數據分析,并將結果按照風格要求可視化。如果是人工完成,可能需要耗費數小時。

我們將官方提示詞中的企業從英偉達改為AMD,切換了比較的基準,Kimi同樣能給出類似質量的分析結果,這在某種程度上也印證了其能力不是完全靠“背題”實現的。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

生成結果:

//www.kimi.com/share/19988bb0-9b82-864d-8000-0000e74d03a4

不過,OK Computer并不是市面上唯一一款具備類似能力的Agent,我們也將這一任務交給了Manus。

可以看到,Manus的執行風格更偏向直接上手做,收到任務后直接就開始查詢財經數據的API了。Manus最終交付了一份MarkDown文檔,以及四張數據圖表。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

Manus的報告內容更為宏觀,在具體數據的呈現上比OK Computer更少,報告長度也更短,任務耗時比OK Computer長。數據可視化方面,其圖表的美觀程度和OK Computer相比還有一定差距。

二、擅長PPT、多功能網站開發,多位網友給出好評

月之暗面介紹,OK Computer已掌握的工具集包括列待辦事項、寫Python代碼、操作終端、瀏覽網頁、文字搜索、圖片搜索、圖片生成、音頻生成、接入專業財經數據源、網站部署等。

在該公司的內部測試中,OK Computer目前擅長的任務類型,包括多功能網站原型開發、海量數據分析與可視化、高品質演示PPT制作等。

x平臺上的一名科技博主分享,他用OK Computer打造了一個功能完備的星座網站。這個網站可以幫助用戶了解每個星座的特征,還可以比較兩個星座之間是否匹配。其設計風格也與網站的主題較為匹配。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

▲OK Computer生成的星座網站(圖源:Gadgetify)

還有網友分享,自己用OK Computer打造了一個文檔比較網站,可以看到這一網站設計簡潔美觀,這位網友反饋完成率還不錯。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

官方Demo中,借助OK Computer,Kimi還打造了一份對電影《2001太空漫游》視覺元素的深度解析PPT,要求僅使用電影原圖與影視和學術深度解析文章。

Kimi會先設定計劃,搜索電影原圖素材和關鍵場景的圖片,搜索電影深度解釋和學術研究資料,經過深度研究和素材資料收集,然后才開始按照視覺規范制作PPT。

最終,Kimi可以交付一份演示文稿,既可以在線分享,也可以下載到本地。

Kimi第一次有自己的電腦了,分析師、工程師樣樣精通,一手實測來了!

結語:從問答機器到全棧開發,大模型競逐Agent能力

月之暗面稱,未來他們會為OK Computer模式帶來更豐富的工具選項和自定義工具能力,也支持連接更多外部應用,讓Kimi可以完成更多類型的任務。

這也順應了行業內的一大趨勢:通用大模型正從知識問答階段、生產力工具階段邁向通用Agent階段。未來,誰能率先在工具生態整合、長時任務執行、可靠性和合規性上建立優勢,誰就可能在新一輪競爭中占據先機。