機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻7月4日報道,今天,極佳視界發布具身基礎模型GigaBrain-0 Preview,90%以上的訓練數據來自該公司自研的世界模型平臺,不到10%來自真機實采數據,成為全球首個主要依靠世界模型生成數據驅動的端到端VLA具身基礎模型。

另外,該公司還將于近期發布面向具身智能方向的世界模型平臺Preview版本。

極佳視界成立于2023年,是一家空間智能公司,致力于將視頻生成提升到4D世界模型,使AI大模型具備對4D空間理解、生成、常識和推理能力,進而實現4D空間中交互和行動。

極佳視界創始人兼CEO黃冠是清華大學AI方向博士,擁有超過十年的AI技術和產業經驗,曾在微軟、三星、地平線等負責算法工作,擁有AI、自動駕駛等方向連續創業經驗。

GigaBrain-0 Preview的執行過程如下:

  • 在輸入端,對RGB圖像與深度信息進行聯合編碼,提升模型對3D空間結構的理解能力以及對復雜場景的感知表征。
  • 在輸出端,系統可利用多種感知模塊的中間輸出(2D框、3D框、6DoF抓取點,末端執行器軌跡等)作為多模態監督信號,增強決策過程的準確性和魯棒性。
  • 引入了面向語言任務拆解的思維鏈(Chain-of-Thought,CoT)機制,將高層用戶指令逐步解析為低層可執行的prompt,實現任務邏輯的結構化分解。與此同時,前序感知模塊輸出的中間結果也為CoT提供了空間推理所需的語義支持。
  • 低層執行prompt將激活對應的action expert模塊,并通過降噪解碼機制生成機器人可執行的動作序列,從而實現從感知到動作的完整控制。

在多項復雜任務中,GigaBrain-0 Preview都表現不錯。

在疊衣服時,GigaBrain-0不僅可以絲滑精細的完成任意形態和多種款式的衣服自動疊放,而且在疊放過程中可以對中間狀態進行主動思考,自動修正疊放方式和平整度。

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

面對物品擺放混亂的餐桌,模型會自主推理最優策略,先思考餐盤怎么擺放,然后雙臂協同完成垃圾清掃工作。就算人為再次隨機丟棄垃圾,模型也能迅速識別并主動調整策略,反復清掃直至桌面整潔。
機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

在沖倒飲料這一類需要雙臂協同完成長程任務中,GigaBrain VLA模型實現了對長程任務的子任務的自動拆分和模型指令遵循。此外,它還對動作進行了平滑性約束,以確保在飲料不灑出。

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

模型還支持自然語音交互,比如用戶只需一句話就可以觸發餐具擺放任務。
機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

相比于真機的實際采集,基于世界模型的仿真2.0在數據獲取效率上展現出明顯優勢,其生成效率可以達到真機采集的10-100倍以上。

這種效率提升,不僅可以降低了數據采集的時間成本,還使得大規模、快速迭代的數據生成和模型迭代成為可能,為物理世界通用智能的訓練和測試提供了支持。