機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影
機器人前瞻1月9日報道,這兩天,智元機器人、上海交通大學與上海人工智能實驗室共同研發的機器人領域首個4D世界模型EnerVerse亮相,該模型旨在讓機器人在任務指引和實時觀測的基礎上規劃未來動作。
在機器人技術領域中,動作規劃始始終是一大難題。現有的機器人動作規劃方法,往往難以實現在語言、視覺和動作等多模態空間之間精確對齊,并且還缺乏大規模、多模態且帶有動作標簽的數據集。
對此,EnerVerse架構可以通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。EnerVerse還引入稀疏記憶機制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。
智元機器人表示,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。
目前,項目主頁與論文已上線,模型與相關數據集即將開源。

一、逐步生成未來具身空間,靈活表達4D空間
2)稀疏記憶機制:借鑒大模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶隊列,有效降低計算開銷,同時顯著提升長程任務的生成能力。
3)任務結束邏輯:通過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。

▲自回歸擴散模型
EnerVerse提出了靈活的自由錨定視角(FAV)方法,以解決過去在具身操作中由于遮擋關系復雜,難以構建完美的全局視角的問題。核心特點有:
1)自由設定視角:允許根據場景靈活重置錨定視角,避免固定多視角在狹窄空間中的局限性。例如,在廚房等場景,FAV可以輕松適應動態的遮擋環境。
2)跨視角空間一致性:基于光線投射原理,EnerVerse使用視線方向圖作為視角控制條件,同時將擴散模型中的2D空間注意力擴展為跨視角的3D空間注意力,確保生成的多視角視頻在幾何上保持一致。
3)Sim2Real Adaption:通過在仿真數據上微調的4D生成模型與4D高斯潑濺(4D Gaussian Splatting)交替迭代,構建了一個數據飛輪,為真實場景下的FAV生成提供偽真值支持。

▲自由錨定視角方法
EnerVerse 還通過在生成網絡下游集成 Diffusion 策略頭(Diffusion Policy Head),打通未來空間生成與機器人動作規劃的全鏈條。關鍵設計包括:
1)高效動作預測:生成網絡在逆擴散的第一步即可輸出未來動作序列,無需等待完整的空間生成過程,確保動作預測的實時性。
2)稀疏記憶支持:在動作預測推理中,稀疏記憶隊列存儲真實或重建的 FAV 觀測結果,有效提升長程任務規劃能力。
二、視頻生成、動作規劃等多項能力出眾
實驗結果表面,EnerVerse 在視頻生成、動作規劃、消融與訓練策略分析及注意力可視化方面都表現出卓越的性能。
1、視頻生成性能
短程生成任務中,EnerVerse 表現優于現有微調視頻生成模型,如基于 DynamiCrafter 與 FreeNoise 的擴散模型。
在長程生成任務中,EnerVerse 展現出更強的邏輯一致性與連續生成能力,這是現有模型無法實現的。

▲EnerVerse的視頻生成表現優于DynamiCrafter 與 FreeNoise的擴散模型
此外,EnerVerse在LIBERO仿真場景和AgiBot World真實場景中生成的多視角視頻質量也得到了充分驗證。

▲EnerVerse生成多視角視頻
2、動作規劃能力
在LIBERO基準測試中,EnerVerse在機器人動作規劃任務中取得了顯著優勢。
其單視角(one FAV)模型在LIBERO四類任務中的平均成功率已超過現有最佳方法,多視角(three FAV)設定進一步提升任務成功率,在每一類任務上均超越現有方法。

▲EnerVerse單視角、多視角模型成功率均超越現有方法
3、消融與訓練策略分析
在稀疏記憶機制方面,消融實驗表明,稀疏記憶對長程序列生成的合理性及長程動作預測精度至關重要。

▲EnerVerse引入稀疏記憶機制
另外,先進行未來空間生成訓練,再進行特定場景動作預測訓練的二階段策略,可顯著提升動作規劃性能。

4. 注意力可視化
通過可視化 Diffusion 策略頭中的交叉注意力模塊,研究發現 EnerVerse 生成的未來空間與預測的動作空間具有較強的時序一致性。這直觀體現了 EnerVerse 在未來空間生成與動作規劃任務中的相關性與優勢。

▲EnerVerse生成的未來空間與預測的動作空間具有較強的時序一致性
三、結語:EnerVerse探索具身智能全新范式
EnerVerse 架構憑借自回歸擴散模型、稀疏記憶機制以及自由錨定視角等創新設計,為具身智能未來空間生成引導動作規劃,不僅突破了機器人任務規劃的技術瓶頸,還為多模態、長程任務的研究提供了全新范式。
EnerVerse也或將開啟機器人融入日常生活與各行業生產的新篇章,對未來動作的規劃能力可以使得機器人在工業制造、物流配送等諸多場景實現更高的生產效率。隨著項目的開源推進,也將會進一步優化、拓展其應用邊界,加速機器人從實驗室邁向千行百業、千家萬戶。