智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬

智東西8月11日報道,在世界機器人大會上,阿里達摩院宣布開源其自研的 VLA(視覺-語言-動作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及機器人上下文協議RynnRCP,推動數據、模型和機器人的兼容適配,打通具身智能開發全流程。

達摩院將MCP(模型上下文協議)理念引入具身智能,首次提出并開源RCP(Robotics Context Protocol)協議,推出一套完整的機器人服務協議和框架RynnRCP。它類似于一個“萬能連接器”,能夠打通從傳感器數據采集、模型推理到機器人動作執行的完整工作流,目前已支持Pi0、GR00T N1.5等多款熱門模型以及SO-100、SO-101等多種機械臂。

RynnRCP是一套完整的機器人服務協議和框架,主要由兩個模塊組成:RCP框架和RobotMotion

RCP目前實現的主要功能包括:提供機器人本體及相關傳感器能力的抽象,對外提供各種功能,并通過標準協議、不同的傳輸層和模型服務進行交互;RobotMotion作為云端推理與機器人本體控制之間的橋梁,將離散的低頻推理命令實時轉換為高頻的連續控制信號,驅動機器人完成運動任務。此外,它還配備了運動規劃與控制所需的工具包,助力具身智能融入物理世界。

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲機器人上下文協議RynnRCP開源頁面截圖

開源地址:
//github.com/alibaba-damo-academy/RynnRCP

RynnVLA-001是達摩院自研的基于視頻生成和人體軌跡預訓練的視覺-語言-動作模型,能夠從第一人稱視角的視頻中學習人類的操作技能,隱式遷移到機器人手臂的操控上。

如下面動圖所示,當研發人員告訴機械臂把草莓放到手掌上,機械臂能夠理解語言的意思,隨后在一些物品中識別出草莓,拿起并放到正確的位置。

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲RynnVLA-001演示

研發人員在同一數據集上對基線進行了微調,以評估其性能。對比結果如下圖所示,RynnVLA-001在多項具體的撿拾物品放置測評中都取得了最高分成績。

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲RynnVLA-001測評結果

研發團隊提供了如何使用開發者自己的LeRobot數據(第 2 階段和第 3 階段)對模型進行微調的說明,后續還將發布如何從零開始訓練模型的說明。

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲VLA模型RynnVLA-001開源頁面截圖

開源地址:
//github.com/alibaba-damo-academy/RynnVLA-001

世界理解模型RynnEC將多模態大語言模型引入具身世界,賦予了大模型理解物理世界的能力。該模型能夠從位置、功能、數量等11個維度全面解析場景中的物體,并在復雜的室內環境中精準定位和分割目標物體,建立連續的空間感知并支持靈活交互。

RynnEC是一種專為具身認知任務設計的視頻多模態大型語言模型(MLLM),如下圖所示,能夠對現實世界中幾乎無限的事物進行識別和認知分析。本次,達摩院推出了RynnEC-2B 模型、RynnEC-Bench和訓練代碼

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲RynnEC演示

如下圖所示,RynnEC-2B在Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(狀態)、Surface(表面)等對象認知測試中超越了Gemini-2.5-Pro、Qwen2.5-VL-72B等頂尖模型,并在空間認知測試中大幅超越了這些模型。

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲RynnEC-2B測評結果

聚焦RynnEC-Bench基準,其在兩個關鍵領域對模型進行評估:object cognition(對象認知)和spatial cognition(空間認知),評估總體22體現的認知能力。

阿里達摩院開源具身智能三件套!RCP協議首解機器人開發碎片化難題

▲世界理解模型RynnEC開源頁面截圖

開源地址:
//github.com/alibaba-damo-academy/RynnEC

結語:打通機器人從感知到執行的完整鏈路

達摩院此次開源的“三件套”——貫通硬件的RynnRCP協議、擬人化操控的RynnVLA模型與理解物理世界的RynnEC模型,如同為具身智能開發者提供了一套“樂高式工具包”。

它們通過標準化連接、擬人化控制與空間認知三大突破,打通了機器人從感知到執行的完整鏈路,有望在之后迭代的過程中大幅降低開發門檻,加速具身智能在工業、家庭等場景的規模化落地,讓機器人真正“看得懂世界,動得像人類”。