機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻9月9日報道,近日,在機器人感知與規劃領域三大國際權威基準測試——分別由微軟、谷歌、香港大學等發起與提出的MS COCO Detection Challenge、RoboVQA與Egoplan-bench2中,優必選的百億參數基座的多模態大模型Thinker,針對二十一個場景、四大類型的任務規劃等命題,奪得了四項全球榜單第一。

另外,參與本次排名的模型,還包括北京智源、英偉達ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。

一、由微軟、谷歌、港大發起,覆蓋工作、生活等多場景測試

MS COCO Detection Challenge 由微軟發起的,是全球最具影響力的計算機視覺評測之一,主要通過真實場景圖像驗證模型對物體的精準識別與定位能力,在全球學術界與工業界享有極高認可度。

國產人形機器人連奪四項全球第一,模型霸榜三大國際測評▲優必選Thinker在MS COCO detection challenge – Segmentation Mask中排名第一

RoboVQA 由谷歌 DeepMind 提出的,是首個針對機器人的多模態長程推理評測,聚焦于驗證模型能否將視覺信息、語言指令與物理常識結合,實現多步驟任務規劃與動態決策。?RoboVQA關注模型的規劃、區分性能力、生成性能力、過去描述和未來預測能力等。
國產人形機器人連奪四項全球第一,模型霸榜三大國際測評▲優必選Thinker在MS COCO detection challenge – Bounding Box排名中并列第一

Egoplan-bench2由香港大學提出,是首個聚焦現實場景多模態規劃的基準測試,通過第一人稱視角視頻模擬人類日常任務,驗證模型在動態環境中的長程決策能力。 Egoplan-bench2覆蓋了工作場景、日常生活場景、娛樂場景以及應急與特殊場景等。
國產人形機器人連奪四項全球第一,模型霸榜三大國際測評

▲優必選Thinker在RoboVQA與Egoplan-bench2中排名第一

二、整合多項關鍵技術,提升機器人感知與推理規劃能力

優必選的Thinker架構與訓練框架,通過多項關鍵技術創新性整合,系統化提升了人形機器人的感知與推理規劃能力。

  • 自研視覺編碼器基座,構建精準環境感知優必選以ViT作為視覺編碼器原型,結合Co-DETR檢測頭,依托Object 365等開源數據在通用視覺任務上進行預訓練,并通過多階段模態對齊機制實現了視覺-語言模態的高效融合。最終,在優必選機器人數據集上進行微調,顯著提升機器人在工業場景中對物體、障礙和操作上下文的識別能力,為復雜環境下穩定可靠的多模態環境感知奠定了堅實基礎。
  • 超大規模參數架構,提供強大語義理解基礎優必選自研了具有百億參數的多模態大模型Thinker基座,實現視覺-語言-時間的跨域統一表征,使機器人能夠在多場景中準確捕捉環境細節、理解任務指令并做出推理,為自動化操作提供可靠的認知基礎。
  • 時序增強算法與強化學習方法,增強長程任務規劃連貫可靠 

    通過大模型蒸餾技術,將百億參數模型效果濃縮至7B參數模型中,在保持高性能的同時增強多步驟任務分解與連續決策能力。該優化使模型可以在端側部署,用機器人自身搭載的算力就可實時自主拆解復雜流程,避免規劃中斷或邏輯混亂,在流程嚴格、環環相扣的工業場景中展現出關鍵價值,將有力保障生產連貫性和操作安全性。
    國產人形機器人連奪四項全球第一,模型霸榜三大國際測評

三、打造通用基礎能力,工業場景再進行精調

優必選采用了“通用基礎能力打造+工業場景精調”的微調策略,基于超200萬條視頻數據構成的大規模訓練集進行預訓練,隨后引入優必選在工廠實訓中積累的億級工業數據集進行微調,并對工業場景任務規劃數據加以清洗與整合,構建高效多模態大模型學習閉環。

通過這一流程,模型能夠快速學習工業場景的視覺特征、任務規則與操作偏好,最終顯著提升人形機器人在工業場景中的理解準確率、規劃適配性與決策可靠性,實現在多種復雜場景中的泛化性與穩定性。

借助Thinker,Walker S2可精準識別設備、物料與障礙物,深度理解場景語義及操作前后邏輯關聯,提升長周期任務的執行穩定性。在復雜流水線環境中,機器人展現出持續連貫的規劃能力,大幅降低對人工干預的依賴。

實際應用數據顯示,相比僅基于通用數據微調的模型,采用工業數據集進行二次微調后,Walker S2在拆碼垛規劃等典型任務的中的規劃精度提升超過 20%,相關技術報告將在arxiv上發布。

國產人形機器人連奪四項全球第一,模型霸榜三大國際測評
▲Walker S2在工業場景中自主規劃任務

結語:人形機器人邁向大規模應用,還亟需開放協同的應用生態

當前,人形機器人正處于從技術驗證到大規模應用的關鍵拐點,其發展亟需與開發者共同構建開放、協同的應用生態。

優必選稱,后續將逐步開源一系列業界稀缺的工業場景數據集與通用基礎大模型,為全行業提供源自實際應用一線的高質量合規數據資源。開發者可基于優必選多模態大模型Thinker,面向各類新場景開展精調與二次開發,助力提升開發效率。