機器人前瞻(公眾號:robot_pro)
作者?|? 江宇
編輯?|??漠影
機器人前瞻9月23日報道,智元機器人今日宣布全面開源其通用具身基座大模型GO-1(Genie Operator-1)。這是全球首個基于Vision-Language-Latent-Action (ViLLA)架構的具身智能模型,向全球開發者免費開放。

GO-1的核心創新是ViLLA架構。傳統的VLA(Vision-Language-Action)模型直接從圖像和文本預測動作,而ViLLA在兩者之間引入“隱式動作標記”(latent action tokens),相當于為機器人構建一個“中間語義層”。
其共有三層結構:
1、VLM多模態理解層(基于InternVL2.5-2B):處理多視角圖像、語言指令和力覺信號。
2、Latent Planner隱式規劃器:利用latent tokens完成長時序規劃,解決復雜任務。
3、Action Expert動作專家:基于擴散模型輸出高頻率的低層次連續動作序列。

▲GO-1三階段訓練機制示意圖
這種設計使模型能先抽象理解“動作語義”,再轉化為具體操作,提高了跨場景與跨機器人平臺的泛化能力。
GO-1的訓練依托于AgiBot World Colosseo數據集。該數據集由100余臺雙臂人形機器人采集而成,包含超過100萬條操作軌跡,覆蓋217類任務、87項技能和106種場景,構建于家庭、零售、工業、餐飲、辦公五大環境中,總面積超過4000平方米,涉及對象超過3000種。
與以往主要集中在短時、單一任務的數據不同,該數據集突出長時序操作,軌跡平均時長在30至60秒之間,并包含“倒水”“折疊衣物”等高復雜度任務。

其采集過程采用human-in-the-loop機制,所有數據均經過人工校驗,甚至包括失敗數據也會被標注和保留,以提升模型對異常情況的魯棒性。

基于這一數據集訓練的策略在真實復雜任務上的表現,比Open X-Embodiment數據集提升約30%,在未見場景中也展現出顯著的泛化能力。

此外,GO-1在“倒水”“補貨”等需要指令理解與位置泛化的任務上,成功率明顯優于RDT和π0模型。在引入latent planner之后,其復雜任務的平均完成率額外提升了0.12分。

同時,該模型性能隨著數據規模呈現冪律擴展關系,驗證了持續提升的可能性。在相同任務下,人工校驗過的數據比未校驗數據帶來了0.18分的性能增益。

除了真實數據集上的實驗,GO-1也在仿真與真機評測中進行了驗證。在Genie Sim和Libero兩大主流仿真平臺上,模型均取得領先成績。在Genie G1真機實驗中,其表現同樣優于其他SOTA模型。

▲GenieSim仿真評測結果

▲Libero仿真評測結果
雖然GO-1基于AgiBot G1機器人數據預訓練,但在松靈機器人、Franka機械臂等平臺測試中也展現了良好的遷移效果。GIA模型采用通用數據接口(兼容LeRobot格式),便于開發者在不同硬件上進行微調與部署。

與此同時,智元機器人還推出了一站式開發平臺Genie Studio,覆蓋數據采集、管理、訓練、仿真、部署等全流程,內置GO-1基座模型和完整工具鏈,支持真機一鍵編譯與部署,旨在降低開發門檻并提升效率。

GitHub地址://github.com/OpenDriveLab/AgiBot-World
Huggingface地址://huggingface.co/agibot-world/GO-1
論文://arxiv.org/abs/2503.06669