機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影
機器人前瞻8月11日報道,近日,由北京人形機器人創新中心(國地共建具身智能機器人創新中心,以下簡稱“北京人形”)主辦的“具身智能技術與應用論壇”在2025世界機器人大會(WRC)期間舉行,現場發布了多項具身智能核心成果,北京人形還與多家企業、機構達成戰略合作,共同推進具身智能技術在實際場景中的深度落地。
好用的人形機器人,不僅要具備穩定可靠的行動能力,更要在真實場景中實現感知、決策、控制與迭代優化的全鏈路協同。這一目標的前提,是同時突破認知理解、通用適配、執行控制與數據供給等核心環節。為此,北京人形在論壇現場正式發布了四項具身智能核心成果:
1、具身世界模型體系
這一體系包含具備物理時空理解與推理能力的72B具身多模態大模型,以及實現神經網絡驅動世界模擬器的具身智能世界基座模型。
針對通用大模型具身場景下精細空間/幾何理解不足,物理交互誤差大等問題,北京人形基于千問72B多模態大模型,通過自研數據清洗與混合模態訓練框架,實現行業首個長視頻理解72B具身多模態大模型PelicanVLM,在現代多模態系統超長視頻語言理解評測集Egoschema、李飛飛的視覺空間智能基準評測集VSI-Bench,多模態大模型物理推理能力大規模基準測試集PhyX等6項具身相關公開評測集上超越GPT-4o、Gemini flash 2.0以及原模型,7個公開評測基準平均性能超過SOTA 11%。
基于超過5000小時視頻數據訓練的具身世界模型WU,則為具身智能機器人提供了“看見未來”的眼睛,并以未見場景下的泛化能力,解鎖具身無限數據的可能性。
2、跨本體VLA模型
北京人形發布跨本體VLA模型XR-1,讓同一模型實現跨本體運行、多場景適配、多技能調用。
在業界驗證的?RoboMIND?高質量具身數據基礎上,XR-1?通過積累超百萬量級的自有多本體數據,采用首創的多模態視動統一表征學習,有效利用各類機器人操作數據和海量互聯網視頻數據。
在此基礎上,XR-1?利用多模態視動統一表征訓練、跨本體主網絡訓練和特定場景微調三階段訓練范式,實現機器人跨本體的通用操作知識積累和特定場景的多任務快速學習。在多種機器人本體上大量真實環境測試,實證了該方法的多本體、多技能、多任務、穩健泛化能力,以及其在快速掌握新技能上的巨大潛力。
以?XR-1?為基礎,“慧思開物”能夠快速構建面向各類場景任務的通用技能庫,實現多本體、多場景、多任務的能力,顯著減少具身智能應用開發的成本與用時。
3、人形機器人全身控制自主導航系統
該通用移動控制系統聚焦機器人在實際工作中的核心能力,由“自主導航系統”和“全身控制系統”組成。
自主導航系統具備點對點導航、動態障礙感知和自主避障能力,并搭載OCC環視感知模塊,實現對環境的實時占用與語義感知,拓展了自主與語義導航的應用空間。全身控制系統支持機器人在移動和站立狀態下靈活進行上身動作控制,涵蓋預設動作、遙操作與自主操作開發。通過穩定的質心控制與精準的末端控制,保障操作任務的穩定高效執行。
兩大系統協同解決機器人在移動與操作中的關鍵技術難題,賦能開發者實現自主任務規劃與執行,助力人形機器人邁向真正的生產應用。
4、千臺機器人真實場景數據采集計劃
這是業內首個千臺級規模的真實場景數據采集計劃,通過搭建遠程遙操作中心,讓千臺機器人走出實驗室,深入工廠車間、物流倉儲、酒店商超等真實工業場景,在執行實際作業任務的同時,持續采集多模態交互數據。
與實驗室場景不同,真實場景的環境變化、人為擾動、突發狀況等因素,為具身智能模型提供了更加豐富、真實的訓練素材。這種”邊作業、邊采集”的創新模式,不僅解決了具身智能發展面臨的高質量數據稀缺難題,更構建起規模化數據飛輪,加速模型迭代優化,推動整個行業向”數據富集”跨越,為具身智能產業化落地奠定數據基礎。
論壇現場,北京人形與百度智能云、中國電力科學院、奇安信集團、李寧公司、領益智造、特天集團、哈森股份、三維天地、浪潮智慧能源等核心機構和企業代表舉行現場簽約儀式,正式達成戰略合作。各方將圍繞協同創新與行業應用,推進具身智能技術在實際場景中的深度落地,共同打造開放共贏的產業生態。
與此同時,北京人形聯合京灃科技設計仿真訓練平臺發布,針對當前行業普遍面臨的仿真數據標準缺失問題,提供覆蓋多場景、高精度、高復現能力的專業訓練環境,進一步完善具身智能從“訓練—部署—驗證”的系統能力,賦能開發者與企業快速實現真實落地。