智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會第一天的主會場開幕式上,北京大學助理教授、銀河通用機器人創始人&CTO、智源具身智能中心主任王鶴以《通向開放指令操作的具身多模態大模型系統》為題發表演講。

成立于2023年5月的銀河通用機器人,是國內具身智能代表初創公司之一,迄今已完成4輪融資,美團是公司外第一大外部股東,北大燕緣創投、清華無限基金SEE Fund均是投資方,其累計融資額已超過1億美元。

作為國內具身智能領域資深專家,王鶴詳細解讀了具身智能大模型的定義、范圍和關鍵技術。他談到目前面向通用機器人的具身多模態大模型的局限在于數據來源有限、很難高頻輸出動作。應對這兩大挑戰的方向,一是通過仿真世界提供訓練數據,二是采用三維模態模型提升泛化性和速度

對此,銀河通用機器人構建了三層級大模型系統,包括硬件、仿真合成數據訓練的泛化技能、大模型等。基于該系統,機器人可實現跨場景、跨物體材質、跨形態、跨物體擺放、依據人類語音指令進行的開放語義泛化抓取,成功率達95%

以下為王鶴的演講實錄:

今天我帶來的內容與機器人相關,這個話題也是今年“AI+”中最火熱的話題之一。

大模型公司OpenAI和機器人公司Figure AI聯手演出,讓我們看到機器人在廚房里拿蘋果、端盤子、放杯子的驚艷視頻。還有巨頭英偉達在GTC大會官宣要做Project GROOT,GROOT就是通用機器人。

那么,對于通用機器人我們的期待是什么?就是它能像人一樣干各種各樣的體力勞動,可以實現我們告訴機器人指令,它通過視覺去看、各種傳感器去感知,然后連續高頻輸出動作,也就是能夠聽懂我們跟它說的任務指令。這就是“言出法隨”。

此外,機器人還應該做到環境泛化,在家庭、工廠、商超等不同的環境中工作。

這樣的通用機器人顯然不是只造出機器人本體就可以,那么背后的技術是什么?什么賦予了它這樣的能力?就是具身多模態大模型。

一、拆解大模型分類,自動駕駛是典型的具身大模型

具身多模態大模型就是能高頻輸出動作的大模型,我將其分為非具身和具身大模型兩類。

今天前面看到的一些大模型實際是非具身大模型,如GPT-4、GPT-4V、Sora等,它們的特點是,輸出都是給人看或者給人讀的。無論語言、圖片還是視頻大模型,最終服務的對象是人,顯示的設備是各種手機、電腦、AR設備等。

而具身大模型的特點是:擁有一個身體,最終輸出的對象是身體的運動

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣來看,自動駕駛大模型就是一種典型的具身大模型,比如特斯拉的FSD全自動駕駛系統,今年8月號稱要開始無人出租車業務Robotaix。

自動駕駛大模型的輸入是視覺信號和終點的位置,輸出是方向盤的動作和油門、剎車的大小。機器人相比于車來說,動作空間自由度更高,輸出是底盤或者腿、手臂、手指等全身的運動。這樣的機器人大模型也是這幾年學術界、工業界研究的熱點。

谷歌RT-2大模型是端到端的具身大模型代表,能夠把香蕉放到寫有“3”的紙上,把草莓放到正確的碗里。“找到正確的碗”,這背后需要大模型的通用感知和理解能力,以及連貫的動作生成能力。還有把足球移到籃球旁邊,把可樂罐移到Taylor Swift的照片旁邊,將紅牛移動到“H”字母上。

這樣的具身大模型,如果能完全達到Open-Instruction(開放指令)、Cross-Environment(跨環境泛化),就能替代大量的體力勞動。

今天,全球語言大模型、視頻大模型、圖片大模型、自動駕駛大模型的市場規模都達到至少千億美元,試問如果能有一個完成任何指令的機器人代替人,它的市場規模會有多大?可能相比于目前車的市場提升兩到三個數量級。

二、通用機器人面臨兩大局限性:數據來源有限,機器人反射弧長

谷歌的RT-2大模型背后就是通過多模態大模型輸出動作,那么這樣的大模型是否已經成熟了?是否今年我們可以期待有機器人保姆在家里干活?目前,無論OpenAI、英偉達,還是谷歌,做通用機器人都還有巨大的局限性

谷歌的技術局限性第一點在于,具身機器人數據來源非常有限,谷歌在Mountain?Village(美國加州)辦公室的廚房里采集了17個月,得到13萬條數據,使得其機器人在谷歌的廚房里表現可以非常好。

但一旦出了這個廚房,需要考察其環境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場景中,它最大的問題就是數據采集沒有辦法做到Scalable(可擴展)。

今天,有百萬臺車主在開特斯拉,為特斯拉的端到端自動駕駛模型提供數據,互聯網上有無窮無盡的用戶上傳的照片等作為多模態大模型的數據,那么機器人大模型的數據在哪兒?這是谷歌、OpenAI、英偉達沒有完全解決的問題。

第二點局限為,RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能達到1~3Hz,機器人的反射弧長達0.3秒甚至1秒,這樣的機器人恐怕你也不敢用。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

OpenAI和Figure AI合作用的是小模型,它能夠達到200Hz的動作輸出頻率,大模型如何做到以200Hz的頻率輸出動作也成為通用機器人領域的重要問題

三、打造三層級大模型系統,解決泛化、響應速度難題

今天給大家帶來一些銀河通用在這個問題上的探索。

如何能夠做到又快又泛化?泛化說的是數據問題,今天真正可以滿足機器人大模型需求的數據且含有動作標簽的數據,只能來自于仿真世界、物理傳感器

在2017年,我讀博士期間就開始研究如何通過仿真生成大量的合成數據,來訓練機器人的視覺和動作。今天我們可以把各種家用電器等物體搬到仿真設備里面,并且可以真正做到物理仿真,機器人要沿著一定方向用力拉抽屜,而不是像游戲里面手一過去抽屜就彈開了。如果是那樣的話,機器人學到的東西在真實世界里面沒有用。

我們在仿真世界里面放滿了各種各樣的物體,賦予它跟真實世界相同的交互方式,我們再把傳感器放到仿真環境里面去訓練,就擁有了一個足夠好的數據生成來源。

那么如何做到快?就是小模型,如同OpenAI和Figure AI的小模型一樣,高頻輸出動作。三維視覺的小模型給我們帶來了一個比Figure AI更好的選擇方案。

Figure AI的方案采用了二維視覺模型,二維視覺模型最大的特點是很難泛化。如果你之前在黑色房間做訓練,那么換成白色的房間此前的訓練就白費了。三維視覺看到的是點云、物體的幾何,不會受光照、紋理、顏色影響。

那么,這樣可以做到泛化、快,還是從仿真數據里面學習的模型,能不能解決我們真實世界開放與易操作的問題?今天我把我們做的標志性成果跟大家分享一下。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

我們用的是三層級大模型系統,底層是硬件層,中間層是通過仿真合成數據不用任何真實世界數據訓練的泛化的技能,包括自主建圖、自主導航、物體抓取、開門開抽屜開冰箱、移動操作、掛衣服疊衣服柔性物體操作的泛化技能。

這里談泛化的原因為,我們可以在仿真環境里生成千萬級場景,十億規模的動作來訓練機器人,讓其可以應對各種真實世界的情形和挑戰。這種采集方式,相對于在真實世界里用遙控器遙控機器人采集具有極高的效率和豐富的數據來源

最上層是大模型,可以調度中間技能API,來實現完整的從任務的感知、規劃到執行的全流程。

四、大型仿真平臺Open6DOR,破解六自由度操作難題

先展示第一個例子,我們如何做開放語義關節類物體的操作

我們與斯坦福大學合作,機器人執行開關微波爐、開鍋、使用攪拌機等任務時,背后不是靠我們去挨個訓練不同類別,而是直接在這些物體上測試我們的模型。

這一技能來源于CVPR 2023的滿分論文,我們提供了世界上第一個以零件為中心的數據集,該數據集覆蓋了各種家用電器上可能存在的主要操作零部件,包括旋轉蓋、推蓋、轉鈕、按鈕、直線把手、圓形把手、門等。

然后我們把這些零部件放在仿真世界里面,并標注了它的位姿、所有軸的使用方法,從而幫助推理相應開門等操作的方法。

這樣的合成數據集就能教機器人如何去開生活中沒見過的柜子,機器人只要有三維點云、找到把手的位置,正確抓取把手在沿著柜子的方向一拉就可以打開任何抽屜。

我們的實驗也證實了機器人可以完全依賴仿真世界的數據,實現真實世界里關節類物體的泛化操作,包括沒見過的物體類別,如遙控器、計算器、圓形把手的鍋蓋等。圖上面是三維視覺的輸出,下面是機器人技能的展示。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣的技能如何與大模型相結合?GPT-4V與我們十分互補,GPT-4V是典型的二維語言雙模態大模型,它具有很強的推理和感知能力。但其缺點在于,會偶爾看不出來,對物體零部件的數量判斷錯誤,且不知道零部件在三維空間中的具體位置,定位能力為零。

三維視覺的模型就可以提供GPT-4V檢測到零部件的數量、位置和形態,把它作為Prompt交給GPT-4V,讓它去思考這個東西怎么去用。

我舉一個例子,當我們直接把檢測到的微波爐零部件交給GPT-4V作為Prompt時,讓它生成關于這個場景的綜合描述,它會說這個微波爐有直線門、直線把手、按鈕和旋鈕,然后問它:“如果我想打開微波爐,我應該動哪個零部件?使用哪個API?”

大模型的回應是“動把手,調用的API是繞門軸轉90度”。那么,把手在哪里、門軸在哪里是三維視覺給它的,GPT-4V不能輸出三維的坐標和位置。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

然后機器人嘗試時,我們發現這個操作看似合理,但實際操作卻打不開,這是為什么?因為微波爐不可以靠蠻力開,這時候我們將“門沒有打開,只旋轉了零點幾度”的三維視覺反饋給GPT-4V,問它接下來怎么辦。

大模型給出操作時,可以調用檢測出的按鈕再開門。這體現了大模型通過豐富的語料訓練,已經產生了足夠多的知識。我們可以直接信任它進行操作。

這樣的例子很多,我們最開始講的家用電器的零部件,GPT-4V知道零部件的位置等就可以進行操作。這是真正的Open-Instruction(開放指令),它關于環境是泛化的,不受環境的顏色、光照影響,只關心幾何。

第二個例子是如何做到六自由度物體的自由擺放。六自由度指的是三自由度的平動、三自由度的轉動。

谷歌的工作是三自由度的開放語義操作,它只能做到放在哪兒,不能做到朝哪兒放,其沒有方向改概念只有位置概念。我們在全球率先提出桌面級操作要解決的里程碑難題就是六自由度操作,能夠在桌面同時執行位置和朝向的指令,我們將其命名為Open6DOR。

Open6DOR是大型仿真平臺,里面包含2500個各種各樣的任務。這些任務不用于訓練,而是拿來檢測具身多模態大模型能不能完成,這其中有200多個家用常用物體。

其主要關注三類任務追蹤,第一是只關心位置,比如把蘋果放到勺子的右邊、把瓶子放到錘子和改錐的中間,這就是Position-track;第二是Rotation-track,把錘子沖向左、易拉罐的標簽朝左、把碗上下顛倒。而實際我們需要的是Position+Rotation的任務執行,也就是六自由度Track,比如把盒子放到鍋和鍋蓋之間并讓標簽沖上,或者把卷尺放到中間且讓它立起來,像這樣的操作是桌面級操作里的關鍵性里程碑

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

誰能夠率先完成2500個任務,就說明你的大模型已經初步具備了Open Instuction能力。

五、三維視覺小模型快速生成動作,大模型規劃

目前,針對2000多個任務,我們自己提了一套方法。

首先是抓取能力,這是銀河通用的獨有技術,我們研發出全球首個可以實現基于仿真合成數據訓練任意材質的技術。通過海量的合成數據,我們在全球第一次達到了跨場景、跨物體材質、跨形態、跨物體擺放實現泛化抓取,并且首次達到95%的抓取成功率。

此外,對于純透明、純反光等物體的泛化抓取對于二維視覺、三維視覺都有極大的挑戰性。可以看到,我們的方法能實時將透明高光物體的深度進行重建,并據此進行物體抓取。

下圖中演示的抓取不是簡單的從上往下抓,它其實是六自由度的抓取,既有三自由度的轉動,又有三自由度的平動。此外,當其耦合大模型后,可以實現開放語義的物體抓取,從抓取能力上今年我們已經實現了泛化的一指令抓取。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

那么如何做到位置抓取有效?下面四張圖演示的指令分別是,抽一張紙蓋在改錐上、把瓶子豎直放到紅碗里、把足球放到抽屜里、把水豚放到金屬杯子里面。

它背后是怎么做的?首先我們要用GPT-4V提取指令中的關鍵信息,這里的指令是“把水豚放到寫著‘Open6DOR’的紙上,并且把水豚沖前”,我們用GPT-4V+Grounded-SAM把所有的物體進行分割,并且把其三維Bounding Box(邊界框)輸出給GPT-4V。GPT-4V理解這些物體現在的位置后,就會輸出應該把物體放在哪個位置的指令。

那么旋轉怎么辦?GPT-4V是否可以直接輸出旋轉矩陣?輸出機械臂左轉上轉橫轉分別多少度?答案是不能,GPT-4V沒有這個能力,它并不知道轉軸在哪里。

我們在全球提出了Real-same-real的Pipeline,先將真實物體在仿真環境里面重建,再把重建的物體Mesh自由落體撒滿整個仿真環境,讓物體處于各種可能待的位置。然后將這些位置交給GPT-4V評判,誰滿足語言指令的需求,隨后GPT-4V通過兩輪篩選,選擇出符合指令物體的擺放位置。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣的仿真是全并行,可以很快完成,其中比較慢的就是GPT-4V需要在很多張圖里選最好的一張圖。我們會將十張圖拼成一張圖,上面打出標簽0~9,GPT-4V直接輸出選擇哪個,可以同時解決位置在哪兒、朝向在哪兒的問題,后面就用我們的抓取算法結合路徑規劃,將任務完成。

我今天談的例子是,當我們用GPT-4V端到端去做動作生成時,它并不快,就像視頻生成現在是離線的一樣。而機器人需要在線實時生成,因此我們提出了用中間的三維視覺小模型進行動作快速生成,大模型進行規劃的三層級思路。

但未來還是端到端,誰能做好端到端的視覺、語言、動作大模型?這里隱含了一個條件——沒有做好小模型的公司、沒有能讓動作小模型泛化的公司,不可能讓大模型泛化。因為大模型在單一任務上的數據需求遠高于小模型。

銀河通用攜帶著一系列從抓取、放置、柔性物體操作到關節類物體操作等各種小模型,我們將百川歸海,最終融匯到大模型里實現通用機器人。在這一點上,我們已經率先打造了全球首個跨場景泛化的導航大模型,你可以用一句話讓機器人在沒見過的環境里面跟著指令走,這樣的機器人沒有任何三維定位、建圖、激光雷達,只有圖片作為輸入,這與人走路找路的方式一模一樣。

我們相信這樣通用、泛化的端到端的Vision Language Action Model(視覺語言動作大模型)將迅速革命現有的機器人產業格局,在非具身大模型和自動駕駛大模型之后創造出一條萬億的賽道。

銀河通用成立于去年6月,用10個月的時間完成四輪融資,累計融資額達到1億美元,我們有一眾明星投資人。

以上是王鶴演講內容的完整整理。