智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | Panken
智東西2月8日消息,24小時極速復現OpenAI Deep Research,還免費提供,這是開源AI社區Hugging Face做出的新貢獻——一款開源的AI研究agent,不僅能勝任整理信息寫報告的復雜任務,而且僅開放一天就在嚴苛的通用AI助手基準測試中達到55%的準確率(OpenAI原功能是67%)。
DeepSeek-R1在海外的現象級爆火,加速OpenAI推出免費的o3-mini、Deep Research等新模型與功能。然而,DeepSeek開源策略掀起的前沿模型復現潮,讓廣大網友已經不滿足于OpenAI的閉源系統,而是希望用更低成本的開源系統實現同樣的效果。
OpenAI的Deep Research能進行多步驟自主研究、信息深度整合以及復雜任務的處理,OpenAI在博客中透露,Deep Research由一個大模型和一個內部Agent框架組成。
復現時,Hugging Face團隊基于微軟的開源Agent系統,并用代碼Agent框架進行優化,讓Agent用代碼來規劃、表達其行動,這對提升系統表現的作用顯著。
該團隊還提出,未來可通過增加支持的文件格式數量、提出對文件進行更細粒度處理的建議以及使用基于視覺的網絡瀏覽器,來進一步提升系統表現。
項目鏈接://huggingface.co/blog/open-deep-research
試用鏈接://m-ric-open-deep-research.hf.space/
一、代碼Agent架構可顯著提升性能,運行成本降低30%
Hugging Face團隊本次復現OpenAI Deep Research的核心任務便是Agent框架的搭建。Agent框架是大模型上一層的架構,用于指導大模型進行瀏覽網頁、閱讀PDF等操作,并且按照一系列步驟組織上述操作。
將大模型整合進Agent框架可顯著提升性能表現。在多項基準測試中,僅需使用基礎的開源通用Agent架構smolagents庫,就能將幾款最近發布的前沿模型的表現提升至高60分。

▲Agent框架能顯著提升大模型表現(圖源:Hugging Face)
實際上,OpenAI也在發布Deep Research功能的博客文章中強調,在知識密集型的高難度基準測試“Humanity’s Last Exam”中,Deep Research的表現要明顯好于獨立運行的大模型。
在復現Deep Research功能時,Hugging Face團隊主要采用代碼Agent來提升傳統Agent架構的表現。先前研究顯示,讓Agent用代碼來規劃、表達其行動具有4個優勢,尤其是在表達復雜的行動序列時。
1、在下方案例中,用代碼來表示行動比JSON要簡潔許多。這一序列需要運行4個并行流,每個流包含5個連續行動。在JSON中,你需要生成20個JSON塊,每個塊在單獨的步驟中;而若用代碼表示,只需1個步驟。

▲研究來源:
平均而言,論文顯示代碼行動比JSON少30%的步驟,這意味著生成的token也相應減少。由于大模型調用通常是Agent系統的主要成本,這意味著Agent系統的運行成本降低了約30%。
2、用代碼來表示行動還能更方便地再利用常見庫中的工具。
3、這種系統在基準測試中的表現更好,因為大模型在訓練時廣泛接觸了代碼數據,這種行動表達方式對它們來說更為直觀。
4、更好的狀態處理能力:在多模態任務中,如果需要存儲圖像、音頻等內容后續使用,只需將其作為變量分配給狀態。但在JSON中,必須讓大模型在字典鍵中命名它,大模型后續能否理解和使用也還是未知數。
同時,Agent系統需要配備正確的工具集,Hugging Face的復現團隊使用了微軟研究院現成的的Magentic-One Agent,試圖用最低的復雜性獲得最高的性能。工具集中包含2個工具:
1、一個網絡瀏覽器。雖然像Operator這樣的完整網絡瀏覽器交互需要達到全性能,但Hugging Face團隊目前先使用了一個簡單的基于文本的網絡瀏覽器,作為概念驗證。
2、一個簡單的文本檢查器,能夠讀取大量文本文件格式。
二、遠超開源SOTA系統,還有三大提升空間
為測試上述系統的性能,Hugging Face團隊使用了GAIA這一全面且難度較高的Agent測試基準,涉及許多基于大語言模型的挑戰。
下方是一個測試集中的難題:
“在2008年的畫作《烏茲別克斯坦刺繡》中展示的水果,哪些被用作1949年10月郵輪早餐菜單的一部分,該郵輪后來被用作電影《最后的航行》的浮動道具?請以逗號分隔列出這些水果,按照畫作中從12點位置開始按順時針方向排列的水果順序,使用每個水果的復數形式。”
此類問題對Agent系統提出了多個挑戰:識別水果需要用到多模態能力;搜集信息時需要理解信息間的相互依賴關系;輸出回答時需要按照指定的格式。此外,系統還需將問題解決的軌跡按正確順序串聯起來。
解決此問題需要高級規劃能力和嚴格的執行,這兩個領域在使用時單獨使用大模型時會遇到很多困難。
在GAIA的公共排行榜上,GPT-4在沒有任何Agent設置的情況下,連7%的驗證集分數都達不到。但通過Deep Research,OpenAI在驗證集上達到了67.36%的分數,提升了一個數量級。

▲Deep Research在GAIA上的成績(圖源:OpenAI)
在Hugging Face 24小時的復現嘗試中,代碼Agent的使用對系統的整體表現提升明顯。之前,Magentic-One是GIGA測試中表現最佳的開源系統,Hugging Face團隊將其表現從46%提升至55.15%,這種性能提升主要歸功于讓Agent以代碼的形式編寫其動作。
當切換到以JSON而不是代碼編寫動作的標準Agent時,相同設置的驗證集性能會立即下降到33%左右。
Hugging Face團隊認為,未來此類系統還可以從三方面進行改進:
1、擴展可讀取的文件格式數量。
2、提出對文件進行更細粒度處理的建議。
3、替換為基于視覺的網頁瀏覽器()。
結語:DeepSeek掀起的開源熱潮持續
DeepSeek憑借其透明、可操作性強的發布與開源模式,成為了全球AI模型開源的最佳實踐案例之一。
Hugging Face本次對OpenAI Deep Reasearch的復現,也正是順應了DeepSeek掀起的開源熱潮。這一趨勢有望讓前沿AI模型的技術進步惠及更廣大的研究群體。
來源:Hugging Face