訂閱
糾錯(cuò)
加入自媒體

DreamZero:從語(yǔ)言理解到世界建模-具身智能的WAM新范式

在具身智能的發(fā)展進(jìn)程中,機(jī)器人要實(shí)現(xiàn)從“語(yǔ)言理解”到“物理交互”的跨越,仍面臨泛化能力不足、物理機(jī)理建模困難以及跨場(chǎng)景、跨本體遷移性差等核心挑戰(zhàn)。以視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)為代表的主流技術(shù)方案,借助預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型(VLM)強(qiáng)大的語(yǔ)義先驗(yàn),在指令跟隨與簡(jiǎn)單物體操作任務(wù)上取得了顯著進(jìn)展。然而,其在未知環(huán)境下的場(chǎng)景泛化能力,尤其是在新技能學(xué)習(xí)與運(yùn)動(dòng)模式生成方面的適應(yīng)性,依然存在明顯局限。英偉達(dá)推出的DreamZero,作為基于預(yù)訓(xùn)練視頻擴(kuò)散主干構(gòu)建的新一代世界動(dòng)作模型(WAM),以140億參數(shù)的自回歸擴(kuò)散 Transformer 架構(gòu)為核心,通過(guò)聯(lián)合建模視頻與機(jī)器人動(dòng)作,有效繼承了海量視頻數(shù)據(jù)中蘊(yùn)含的物理與時(shí)空先驗(yàn),突破了VLA的多項(xiàng)固有局限,實(shí)現(xiàn)了跨任務(wù)、跨環(huán)境、跨具身的零樣本/小樣本泛化,同時(shí)通過(guò)多維度技術(shù)優(yōu)化,達(dá)成了機(jī)器人控制所需的實(shí)時(shí)閉環(huán)控制效果。DreamZero整體概覽(圖片來(lái)源:英偉達(dá)論文)

01

當(dāng)前VLA模型的核心困境:懂語(yǔ)義,卻不懂物理VLA模型的核心思路在于,將預(yù)訓(xùn)練的VLM所蘊(yùn)含的視覺(jué)-語(yǔ)義知識(shí)遷移至機(jī)器人動(dòng)作學(xué)習(xí)領(lǐng)域,從而使機(jī)器人能夠理解自然語(yǔ)言指令、感知視覺(jué)場(chǎng)景并執(zhí)行相應(yīng)的物理操作。經(jīng)過(guò)多年發(fā)展,VLA模型逐漸形成了模塊化組合與端到端一體化兩種主流架構(gòu)。然而,這兩類(lèi)架構(gòu)所依賴(lài)的VLM主要實(shí)現(xiàn)了語(yǔ)義層面的泛化能力,尚未能真正建模和理解物理世界的動(dòng)力學(xué)規(guī)律,這成為制約VLA模型在實(shí)際機(jī)器人任務(wù)中落地的關(guān)鍵瓶頸。

1. 分模塊VLA:依賴(lài)固定技能庫(kù),易產(chǎn)生跨模塊誤差累積

分模塊VLA是早期VLA的典型架構(gòu)形式,其核心設(shè)計(jì)為解耦“高層規(guī)劃”與“底層執(zhí)行” 兩個(gè)環(huán)節(jié):將預(yù)訓(xùn)練VLM作為 “黑箱推理器” 負(fù)責(zé)語(yǔ)義推理與任務(wù)規(guī)劃,再由專(zhuān)用的底層機(jī)器人策略或控制器完成動(dòng)作執(zhí)行。該模塊化設(shè)計(jì)雖簡(jiǎn)化了復(fù)雜任務(wù)的規(guī)劃流程,提升了初期開(kāi)發(fā)效率,但存在相關(guān)局限性。

1)高度依賴(lài)預(yù)先構(gòu)建的底層技能庫(kù),泛化能力受限

分模塊VLA的底層執(zhí)行高度依賴(lài)語(yǔ)言條件運(yùn)動(dòng)基元庫(kù)——即一組將語(yǔ)言指令與固定運(yùn)動(dòng)模式綁定的動(dòng)作模塊(如抓取、放置、插入等)。在該范式下,VLM的核心作用僅限于“聽(tīng)指令選模塊”,其泛化能力僅體現(xiàn)在語(yǔ)義理解層面;而底層執(zhí)行的泛化范圍則完全受限于技能庫(kù)的覆蓋邊界。然而,現(xiàn)實(shí)世界的物理交互具有多樣性與復(fù)雜性,預(yù)設(shè)的動(dòng)作模板難以覆蓋全部應(yīng)用場(chǎng)景。例如,機(jī)器人可執(zhí)行訓(xùn)練過(guò)的“將可樂(lè)罐移至桌面”指令,卻無(wú)法完成“解開(kāi)鞋帶”或“按壓烤面包機(jī)杠桿”等新技能操作。若要實(shí)現(xiàn)新任務(wù)的跨環(huán)境泛化,往往需要針對(duì)不同場(chǎng)景收集數(shù)百組人類(lèi)遙操作數(shù)據(jù)進(jìn)行重訓(xùn),整體開(kāi)發(fā)成本高昂,難以適配開(kāi)放世界。

2)跨模塊誤差易累積,對(duì)接口穩(wěn)健性要求嚴(yán)苛

上層VLM與底層控制器之間通過(guò)指令序列、視覺(jué)軌跡、功能性感知結(jié)果 三類(lèi)信號(hào)交互,但這一接口本身是“不可微”的 —— VLM的規(guī)劃誤差會(huì)傳遞到底層執(zhí)行,底層執(zhí)行的物理誤差又會(huì)反饋給上層規(guī)劃,形成跨模塊誤差累積 。同時(shí),抽象的語(yǔ)義規(guī)劃與具體的物理執(zhí)行之間需要極強(qiáng)的接口穩(wěn)健性,一旦場(chǎng)景稍有變化,就容易出現(xiàn)規(guī)劃與執(zhí)行的錯(cuò)位問(wèn)題。

2. 端到端 VLA:缺乏物理與時(shí)空先驗(yàn),新技能新環(huán)境泛化薄弱

模塊化 VLA 因模塊接口復(fù)雜、誤差逐級(jí)傳遞、依賴(lài)人工定義技能庫(kù)等問(wèn)題難以實(shí)現(xiàn)高效泛化。為從架構(gòu)層面突破上述瓶頸,端到端一體化 VLA被提出。這類(lèi)模型擺脫了規(guī)劃-控制的分層結(jié)構(gòu),將語(yǔ)言條件語(yǔ)義與底層機(jī)器人動(dòng)作融合在同一個(gè)模型中,由大規(guī)模預(yù)訓(xùn)練VLM初始化,實(shí)現(xiàn)了 “視覺(jué) + 語(yǔ)言→動(dòng)作” 的端到端映射,在 視覺(jué)- 語(yǔ)義知識(shí)遷移 上取得了前沿進(jìn)展。但端到端VLA 的底層底座仍是在靜態(tài)圖像 - 文本數(shù)據(jù)集上預(yù)訓(xùn)練的 VLM,這一本質(zhì)特征讓其存在先天難以從根本上彌補(bǔ)的短板: 缺乏學(xué)習(xí)時(shí)空先驗(yàn)的能力。所謂物理與時(shí)空先驗(yàn) ,是模型從視頻、機(jī)器人交互等連續(xù)時(shí)序數(shù)據(jù)中學(xué)到的物理規(guī)律,讓機(jī)器人理解“空間結(jié)構(gòu)是什么、動(dòng)作會(huì)帶來(lái)什么變化”,是從 “懂語(yǔ)義” 升級(jí)到 “懂物理” 的核心。而靜態(tài)圖文數(shù)據(jù)僅能讓 VLM 學(xué)會(huì) “識(shí)別物體、理解指令”,卻無(wú)法讓其掌握重力、碰撞、運(yùn)動(dòng)動(dòng)力學(xué)等物理知識(shí),也無(wú)法匹配精準(zhǔn)的空間感知、幾何結(jié)構(gòu)與運(yùn)動(dòng)控制。因此,端到端VLA 的泛化能力仍?xún)H局限在 物體層面與語(yǔ)義層面 ,在全新運(yùn)動(dòng)技能、全新開(kāi)放環(huán)境上的泛化能力依然比較弱。若不專(zhuān)門(mén)收集大規(guī)模面向特定任務(wù)與環(huán)境的動(dòng)作數(shù)據(jù),端到端VLA 既無(wú)法適應(yīng)新環(huán)境,也無(wú)法在專(zhuān)家演示分布之外的新任務(wù)上實(shí)現(xiàn)泛化?傊瑹o(wú)論是分模塊還是端到端VLA,其核心問(wèn)題均可歸結(jié)為: 僅繼承了VLM 的語(yǔ)義先驗(yàn),卻缺乏物理與時(shí)空先驗(yàn),即物理世界的動(dòng)力學(xué)先驗(yàn)。 盡管VLM先驗(yàn)在語(yǔ)義層面編碼了要執(zhí)行什么操作,但它們?nèi)狈θ绾我劳芯珳?zhǔn)空間感知來(lái)執(zhí)行動(dòng)作的表征,無(wú)法與幾何結(jié)構(gòu)、動(dòng)力學(xué)特性及運(yùn)動(dòng)控制相匹配。這種“ 語(yǔ)義- 物理 ”的鴻溝,讓 VLA 始終難以擺脫對(duì)大規(guī)模特定任務(wù)數(shù)據(jù)的依賴(lài),也無(wú)法實(shí)現(xiàn)真正意義上的開(kāi)放世界泛化。而要破解這一問(wèn)題,核心思路是讓模型從連續(xù)時(shí)序數(shù)據(jù)中學(xué)習(xí)物理動(dòng)力學(xué)規(guī)律,而視頻數(shù)據(jù)因其天然的時(shí)序?qū)傩院蛯?duì)物理過(guò)程的完整記錄,成為該研究方向的關(guān)鍵數(shù)據(jù)載體。

02

從視頻生成到WAM:具身智能的全新解決方案

視頻數(shù)據(jù)包含連續(xù)的視覺(jué)幀變化,天然編碼了物理世界的時(shí)空規(guī)律、運(yùn)動(dòng)因果與動(dòng)力學(xué)特性,成為彌補(bǔ)VLA物理先驗(yàn)缺失的關(guān)鍵。隨著視頻生成模型的發(fā)展,研究者開(kāi)始探索將視頻生成與機(jī)器人動(dòng)作生成結(jié)合,最終誕生了 世界動(dòng)作模型(WAM) ,成為突破VLA困境的新一代技術(shù)范式。

1. 機(jī)器人領(lǐng)域的視頻生成:從隱式世界模型到動(dòng)作映射

在WAM誕生之前,視頻生成模型就已應(yīng)用于機(jī)器人領(lǐng)域,其核心作用是作為隱式的“世界模型”,通過(guò)合成機(jī)器人操作的視覺(jué)軌跡——即模型學(xué)習(xí)視覺(jué)時(shí)空先驗(yàn),預(yù)測(cè)未來(lái)幀中機(jī)器人/物體的視覺(jué)運(yùn)動(dòng)路徑——來(lái)模擬物理交互的動(dòng)態(tài)過(guò)程。隨后,再通過(guò)多種方式將這一視覺(jué)預(yù)測(cè)轉(zhuǎn)化為機(jī)器人可執(zhí)行的物理動(dòng)作,主要包括三種方法:

逆動(dòng)力學(xué)模型: 

從視頻預(yù)測(cè)的末端執(zhí)行器3D軌跡出發(fā),首先通過(guò)逆運(yùn)動(dòng)學(xué)解算為期望的關(guān)節(jié)空間軌跡(含位置、速度)。隨后,基于機(jī)器人動(dòng)力學(xué)模型,通過(guò)逆動(dòng)力學(xué)計(jì)算實(shí)現(xiàn)該期望運(yùn)動(dòng)所需的關(guān)節(jié)力矩,并將其作為底層轉(zhuǎn)矩指令發(fā)送至執(zhí)行器進(jìn)行跟蹤。

光流作為稠密對(duì)應(yīng): 

利用視頻連續(xù)幀間的像素級(jí)運(yùn)動(dòng)向量(光流),建立從當(dāng)前到目標(biāo)狀態(tài)的稠密像素對(duì)應(yīng)關(guān)系。這種方法能捕捉物體的非剛性形變和精細(xì)運(yùn)動(dòng),尤其適用于需要隱式理解物體幾何與物理屬性的操作,如抓取可變性物體或高精度裝配。

軌跡預(yù)測(cè)作為高層規(guī)劃:

 該方法應(yīng)用于模塊化系統(tǒng)設(shè)計(jì),視頻生成模型充當(dāng)高層規(guī)劃器,輸出參考軌跡(如一系列運(yùn)動(dòng)基元或關(guān)鍵路徑點(diǎn));而底層則由一個(gè)專(zhuān)用的運(yùn)動(dòng)控制器負(fù)責(zé),通過(guò)閉環(huán)控制實(shí)現(xiàn)對(duì)參考軌跡的精確跟蹤與實(shí)時(shí)修正。這一階段的研究證明,視頻生成模型能隱式學(xué)習(xí)豐富的物理動(dòng)態(tài)先驗(yàn),為機(jī)器人提供視覺(jué)運(yùn)動(dòng)引導(dǎo)。然而,該范式本質(zhì)上是開(kāi)環(huán)的:模型僅負(fù)責(zé)從觀測(cè)預(yù)測(cè)未來(lái),其輸出的視覺(jué)軌跡與機(jī)器人的底層動(dòng)作執(zhí)行相互割裂。這種“感知-預(yù)測(cè)”與“動(dòng)作”的分離,導(dǎo)致模型無(wú)法從執(zhí)行結(jié)果中學(xué)習(xí)因果關(guān)聯(lián),難以應(yīng)對(duì)真實(shí)世界中復(fù)雜的接觸動(dòng)力學(xué)和未預(yù)見(jiàn)的干擾,因此其泛化能力,尤其是在新物體、新場(chǎng)景下的零樣本執(zhí)行能力,仍然存在根本性局限。

2. 視頻與動(dòng)作聯(lián)合生成:WAM 的誕生邏輯

為實(shí)現(xiàn)視覺(jué)理解與動(dòng)作執(zhí)行的深度融合,研究者提出了視頻生成與動(dòng)作生成聯(lián)合學(xué)習(xí)的范式,旨在通過(guò)統(tǒng)一的模型實(shí)現(xiàn)端到端的世界建模與動(dòng)作預(yù)測(cè)。最后,經(jīng)研究證明,在動(dòng)作預(yù)測(cè)的同時(shí)引入世界建模目標(biāo)(即預(yù)測(cè)未來(lái)視覺(jué)狀態(tài)),能顯著提升模型的多任務(wù)性能、樣本效率以及對(duì)新場(chǎng)景、新物體的泛化能力。早期的聯(lián)合建模嘗試,無(wú)論是采用"先視頻生成、后逆動(dòng)力學(xué)反推"的分階段方法,還是嘗試在同一雙向擴(kuò)散架構(gòu)中聯(lián)合學(xué)習(xí)視頻與動(dòng)作,均面臨視頻-動(dòng)作對(duì)齊失效、時(shí)間流扭曲或動(dòng)力學(xué)先驗(yàn)不足等根本性挑戰(zhàn)。近期的研究突破則選擇以 預(yù)訓(xùn)練視頻擴(kuò)散模型作為基礎(chǔ)骨干 ,讓模型直接繼承海量互聯(lián)網(wǎng)視頻數(shù)據(jù)中隱式編碼的豐富視覺(jué)動(dòng)力學(xué)先驗(yàn)(如重力、接觸、形變等)。WAM 的核心設(shè)計(jì)便是 學(xué)習(xí)視頻與動(dòng)作的聯(lián)合分布 ,這也是其區(qū)別于VLA和傳統(tǒng)世界模型的關(guān)鍵。所謂視頻與動(dòng)作的聯(lián)合分布,即模型同時(shí)學(xué)習(xí)「機(jī)器人動(dòng)作」和「畫(huà)面時(shí)序變化」之間的因果綁定關(guān)系,實(shí)現(xiàn)雙向映射:已知?jiǎng)幼,能精?zhǔn)預(yù)測(cè)未來(lái)的視覺(jué)畫(huà)面(世界建模);已知目標(biāo)視覺(jué)畫(huà)面,能反推出對(duì)應(yīng)的機(jī)器人動(dòng)作(動(dòng)作生成)。在這一機(jī)制中,視頻預(yù)測(cè)扮演了 隱式視覺(jué)規(guī)劃器 的角色—— 模型不輸出任何文字步驟、符號(hào)指令等顯式規(guī)劃信息,而是通過(guò)預(yù)測(cè)未來(lái)的連續(xù)視覺(jué)幀,間接引導(dǎo)動(dòng)作生成,讓動(dòng)作始終與物理世界的變化保持對(duì)齊。這種隱式規(guī)劃方式,讓 WAM 擺脫了固定規(guī)劃模板的限制,更適配開(kāi)放世界的復(fù)雜場(chǎng)景。值得注意的是,研究者將其命名為"世界動(dòng)作模型(WAM)"而非"視頻動(dòng)作模型(VAM)" 。這一命名的深意在于:視頻只是世界建模的一種稠密表示形式。未來(lái)的WAM可將動(dòng)作與觸覺(jué)感知、力反饋、隱空間表征等其他預(yù)測(cè)模態(tài)進(jìn)行對(duì)齊,從而實(shí)現(xiàn)對(duì)物理世界更全面的建模,具備更強(qiáng)的擴(kuò)展性與跨具身遷移能力。

03

DreamZero:WAM的全新技術(shù)范式

英偉達(dá) DreamZero是基于預(yù)訓(xùn)練圖像轉(zhuǎn)視頻擴(kuò)散主干網(wǎng)絡(luò)構(gòu)建的140億參數(shù)規(guī)模的機(jī)器人基礎(chǔ)模型,采用自回歸擴(kuò)散 Transformer(DiT)架構(gòu),通過(guò)教師強(qiáng)制分塊視頻去噪目標(biāo)訓(xùn)練,實(shí)現(xiàn)了視頻與動(dòng)作的深度聯(lián)合建模。

1.DreamZero 核心設(shè)計(jì):三大轉(zhuǎn)化挑戰(zhàn)與針對(duì)性解決方案

預(yù)訓(xùn)練視頻擴(kuò)散模型從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中習(xí)得并繼承了豐富的時(shí)空先驗(yàn),成為構(gòu)建機(jī)器人策略主干網(wǎng)絡(luò)的優(yōu)質(zhì)選擇。但將這類(lèi)模型轉(zhuǎn)化為可實(shí)際落地的有效世界動(dòng)作模型(WAM),仍面臨三大核心技術(shù)挑戰(zhàn):

1)視頻-動(dòng)作模態(tài)對(duì)齊 :

 聯(lián)合預(yù)測(cè)視頻與動(dòng)作的核心要求是實(shí)現(xiàn)視覺(jué)未來(lái)狀態(tài)與運(yùn)動(dòng)指令的緊密耦合,若簡(jiǎn)單拼接獨(dú)立的視頻頭與動(dòng)作頭,極易導(dǎo)致二者模態(tài)錯(cuò)位,無(wú)法實(shí)現(xiàn)有效聯(lián)動(dòng)。

2)架構(gòu)設(shè)計(jì)選型 : 

雙向架構(gòu)與自回歸架構(gòu)對(duì)WAM 的適配性尚未形成明確結(jié)論,而架構(gòu)的選擇會(huì)直接影響模態(tài)對(duì)齊效果、推理過(guò)程中的誤差累積程度以及整體推理效率。

3)實(shí)時(shí)推理效率 : 

視頻擴(kuò)散模型的推理需在高維隱空間中完成迭代去噪操作,這一特性導(dǎo)致模型推理延遲過(guò)高,無(wú)法直接應(yīng)用于機(jī)器人閉環(huán)控制場(chǎng)景。針對(duì)上述三大挑戰(zhàn),DreamZero 通過(guò)三項(xiàng)針對(duì)性的設(shè)計(jì)策略實(shí)現(xiàn)了技術(shù)突破,成功將預(yù)訓(xùn)練視頻擴(kuò)散模型轉(zhuǎn)化為高效可用的 WAM:

構(gòu)建單一端到端模型:

采用共享目標(biāo)函數(shù)對(duì)視頻與動(dòng)作模態(tài)進(jìn)行聯(lián)合去噪,從模型底層架構(gòu)上確保二者的深度融合與精準(zhǔn)對(duì)齊。

選用自回歸架構(gòu)并結(jié)合閉環(huán)執(zhí)行設(shè)置:

在每個(gè)動(dòng)作塊執(zhí)行完成后,將KV 緩存中的預(yù)測(cè)幀替換為真實(shí)視覺(jué)觀測(cè)值,從根源上消除自回歸推理中的誤差累積;同時(shí)借助 KV 緩存實(shí)現(xiàn)高效推理,且能保留視頻原生幀率,進(jìn)一步保障視頻與動(dòng)作的模態(tài)對(duì)齊精度。

系統(tǒng)、實(shí)現(xiàn)、模型三層面優(yōu)化:

通過(guò)多維度的技術(shù)優(yōu)化實(shí)現(xiàn)了38倍的推理加速,最終讓模型支持以7Hz的頻率完成機(jī)器人實(shí)時(shí)閉環(huán)控制。

2. DreamZero 模型架構(gòu):三輸入 + 單主干 + 雙輸出的端到端設(shè)計(jì)

DreamZero采用端到端自回歸架構(gòu),以預(yù)訓(xùn)練視頻擴(kuò)散模型(Wan2.1-I2V-14B)為骨干,僅引入少量新增參數(shù)(如動(dòng)作解碼器、狀態(tài)編碼器)實(shí)現(xiàn)視頻與動(dòng)作的聯(lián)合預(yù)測(cè)。其架構(gòu)可概括為: 三類(lèi)輸入(視覺(jué)觀測(cè)、語(yǔ)言指令、本體狀態(tài)) 、 一個(gè)自回歸DiT主干 、 視頻與動(dòng)作雙輸出頭 。核心設(shè)計(jì)在于"條件輸入下的視頻-動(dòng)作聯(lián)合生成",通過(guò)自回歸生成與KV緩存回灌機(jī)制,實(shí)現(xiàn)視覺(jué)演變與動(dòng)作指令的深度耦合。

DreamZero模型架構(gòu):模型訓(xùn)練和模型推理(圖片來(lái)源:英偉達(dá)論文)

1 )三類(lèi)條件輸入:全方位感知任務(wù)與環(huán)境信息

DreamZero 的輸入覆蓋了 視覺(jué)、語(yǔ)言、機(jī)器人自身狀態(tài) 三大維度,所有輸入均經(jīng)過(guò)專(zhuān)屬編碼器處理為低維隱變量,確保模型能全面理解任務(wù)指令、視覺(jué)場(chǎng)景與自身狀態(tài),為聯(lián)合預(yù)測(cè)提供充足的條件信息。

視覺(jué)上下文 :

即機(jī)器人當(dāng)前與歷史的視覺(jué)觀測(cè)幀序列,通過(guò) VAE 編碼器 壓縮為低維隱變量,在保留視覺(jué)細(xì)節(jié)的同時(shí)大幅降低計(jì)算量,是模型學(xué)習(xí)物理規(guī)律的核心輸入;

語(yǔ)言指令 :

即自然語(yǔ)言形式的任務(wù)描述(如“把橙子放進(jìn)南瓜里”“按壓電梯按鈕”),通過(guò) 文本編碼器 轉(zhuǎn)化為語(yǔ)義條件向量,告訴模型“需要完成什么任務(wù)”;

本體感受狀態(tài) :

即機(jī)器人自身的物理狀態(tài),包括關(guān)節(jié)角度、末端執(zhí)行器位姿、夾爪狀態(tài)等,通過(guò) 狀態(tài)編碼器 轉(zhuǎn)化為狀態(tài)條件向量,告訴模型“當(dāng)前在哪里、處于什么姿態(tài)”。對(duì)于多視角的機(jī)器人訓(xùn)練數(shù)據(jù),DreamZero 僅將所有視角拼接為單幀,無(wú)需對(duì)主干網(wǎng)絡(luò)做架構(gòu)修改,最大程度保留了預(yù)訓(xùn)練視頻模型的泛化能力。

2 ) 自回歸DiT主干網(wǎng)絡(luò):流匹配 + 自回歸架構(gòu)

所有編碼后的輸入均送入采用流匹配方法的自回歸擴(kuò)散Transformer(DiT)主干網(wǎng)絡(luò),這是 DreamZero 的核心計(jì)算模塊:

流匹配:

 學(xué)習(xí)從"噪聲分布"到"真實(shí)數(shù)據(jù)分布"的連續(xù)向量場(chǎng),支持視頻與動(dòng)作的聯(lián)合去噪,保證二者對(duì)齊;

自回歸架構(gòu) :

確保模型僅依賴(lài)過(guò)去信息生成未來(lái)內(nèi)容,符合物理時(shí)序邏輯。借助KV緩存實(shí)現(xiàn)高效推理,保留原始視頻幀率,保證幀與動(dòng)作的精準(zhǔn)對(duì)齊。

3 ) 雙解碼器:聯(lián)合輸出未來(lái)視覺(jué)幀與可執(zhí)行動(dòng)作序列

經(jīng)過(guò)自回歸DiT 主干網(wǎng)絡(luò)處理后,模型通過(guò) VAE解碼器 和 動(dòng)作解碼器 兩個(gè)獨(dú)立解碼器,實(shí)現(xiàn) 未來(lái)視頻幀 與 連續(xù)動(dòng)作序列 的聯(lián)合預(yù)測(cè):

VAE 解碼器:

將視頻隱變量還原為未來(lái)視覺(jué)幀,作為隱式視覺(jué)規(guī)劃器引導(dǎo)動(dòng)作生成;

動(dòng)作解碼器:

將動(dòng)作隱變量還原為機(jī)器人可執(zhí)行的連續(xù)動(dòng)作塊,其時(shí)間跨度與視頻分塊完全對(duì)齊,確保動(dòng)作執(zhí)行后能產(chǎn)生與預(yù)測(cè)視頻相一致的視覺(jué)變化。這種“單主干 + 雙解碼器” 的設(shè)計(jì),既實(shí)現(xiàn)了視頻與動(dòng)作的深度融合,又保證了兩類(lèi)輸出的獨(dú)立性,避免了模態(tài)之間的干擾。

3. DreamZero 訓(xùn)練方式:教師強(qiáng)制下的分塊視頻-動(dòng)作聯(lián)合去噪

DreamZero的訓(xùn)練核心是以真實(shí)歷史為條件,對(duì) 分塊視頻與動(dòng)作 進(jìn)行聯(lián)合流匹配去噪。這一范式結(jié)合了 分塊處理、教師強(qiáng)制、流匹配 三大技術(shù)。

1 ) 分塊處理:適配長(zhǎng)時(shí)序任務(wù)

DreamZero將長(zhǎng)時(shí)序的視頻與動(dòng)作序列拆分為多個(gè)固定長(zhǎng)度的分塊(Chunk)。每個(gè)視頻分塊包含固定數(shù)量的隱式幀,且與動(dòng)作分塊的時(shí)間跨度完全對(duì)齊。這種分塊方式讓模型能對(duì)可變長(zhǎng)度的序列進(jìn)行訓(xùn)練,類(lèi)似于大語(yǔ)言模型對(duì)文本Token的處理,既避免了長(zhǎng)時(shí)序訓(xùn)練的梯度消失/計(jì)算爆炸,又能適配復(fù)雜的長(zhǎng)時(shí)程機(jī)器人任務(wù)。

2) 教師強(qiáng)制:用真實(shí)數(shù)據(jù)引導(dǎo)穩(wěn)定訓(xùn)練

在訓(xùn)練過(guò)程中,DreamZero采用教師強(qiáng)制(Teacher Forcing) 策略:模型始終以干凈的真實(shí)歷史數(shù)據(jù)(前序視頻幀、動(dòng)作、狀態(tài))為條件,對(duì)含噪聲的當(dāng)前分塊(視頻/動(dòng)作隱變量)進(jìn)行聯(lián)合去噪。這一設(shè)計(jì)確保模型在訓(xùn)練初期始終基于真實(shí)的物理狀態(tài)進(jìn)行預(yù)測(cè),避免了因自身預(yù)測(cè)偏差累積導(dǎo)致的訓(xùn)練崩潰,大幅提升了訓(xùn)練的穩(wěn)定性和收斂速度。

3 ) 聯(lián)合流匹配去噪:共享 去噪 時(shí)間步,實(shí)現(xiàn)視頻-動(dòng)作深度對(duì)齊

DreamZero以流匹配為核心訓(xùn)練目標(biāo),對(duì)視頻和動(dòng)作隱變量進(jìn)行聯(lián)合去噪,并在兩模態(tài)間共享去噪時(shí)間步,使模型在訓(xùn)練初期即能學(xué)習(xí)二者的因果綁定。形式化地,模型將干凈的視頻/動(dòng)作隱變量與隨機(jī)噪聲線(xiàn)性插值,得到含噪隱變量,再預(yù)測(cè)從含噪狀態(tài)到干凈狀態(tài)的聯(lián)合速度場(chǎng),通過(guò)最小化預(yù)測(cè)速度與真實(shí)速度的誤差更新參數(shù)。同時(shí),模型施加因果注意力掩碼,確保當(dāng)前分塊僅能關(guān)注前序分塊的干凈上下文,嚴(yán)格遵循時(shí)序邏輯。注: 針對(duì)實(shí)時(shí)控制的加速版本DreamZero-Flash采用解耦噪聲調(diào)度,允許視頻和動(dòng)作處于不同的噪聲水平,以實(shí)現(xiàn)單步推理。

4. DreamZero 實(shí)時(shí)推理優(yōu)化:38倍加速,實(shí)現(xiàn)7Hz閉環(huán)控制

基于擴(kuò)散模型的WAM雖具備強(qiáng)大的泛化能力,但迭代去噪過(guò)程帶來(lái)的 高延遲 ,使其與機(jī)器人的反應(yīng)式控制存在本質(zhì)矛盾—— 原始 DreamZero 在單 GPU 上生成一個(gè)動(dòng)作塊需要約5.7秒,難以實(shí)現(xiàn)實(shí)時(shí)閉環(huán)控制。為解決這一問(wèn)題,DreamZero 從 系統(tǒng)、實(shí)現(xiàn)、模型 三個(gè)層面進(jìn)行了全方位的優(yōu)化,最終實(shí)現(xiàn)了 38 倍的推理加速 ,將單動(dòng)作塊的推理延遲從5.7 秒降至150毫秒,支持以7Hz的頻率實(shí)現(xiàn)實(shí)時(shí)閉環(huán)控制。

1 ) 系統(tǒng)層面優(yōu)化:并行化 + 緩存優(yōu)化推理吞吐量

將模型推理與機(jī)器人動(dòng)作執(zhí)行解耦,運(yùn)動(dòng)控制器持續(xù)執(zhí)行最新的動(dòng)作塊,推理程序基于最新觀測(cè)并行運(yùn)行,將延遲約束從“推理必須在運(yùn)動(dòng)前完成”轉(zhuǎn)變?yōu)椤巴评肀仨氃诋?dāng)前動(dòng)作塊耗盡前完成” 。 在異步執(zhí)行框架下,通過(guò)并行化與緩存優(yōu)化推理吞吐量 :

CFG 并行 :

將無(wú)分類(lèi)器引導(dǎo)的兩次前向傳播(條件/無(wú)條件)分配到兩張GPU上并行執(zhí)行,單步推理延遲降低47%;

DiT 緩存 :

利用流匹配中速度預(yù)測(cè)的方向一致性,當(dāng)連續(xù)速度的余弦相似度超過(guò)閾值時(shí) , 復(fù)用緩存的速度,將有效DiT步數(shù)從16步減少到4步,且?guī)缀醪粨p失動(dòng)作預(yù)測(cè)質(zhì)量。

2 ) 實(shí)現(xiàn)層面優(yōu)化:編譯器+量化+內(nèi)核優(yōu)化,降低硬件開(kāi)銷(xiāo)

Torch Compile + CUDA Graph :

利用PyTorch編譯工具消除CPU開(kāi)銷(xiāo),并通過(guò) CUDA Graph 實(shí)現(xiàn)算子融合 。 靜態(tài)形狀 僅在第一條軌跡時(shí)觸發(fā)重新編譯,大幅提升推理速度;

訓(xùn)練后量化 :

在Blackwell架構(gòu)上將模型權(quán)重與激活量化為 NVFP4 格式,僅將 QKV、Softmax 等敏感操作保留在FP8,非線(xiàn)性操作保留在 FP16,在幾乎不損失精度的前提下大幅降低顯存占用和計(jì)算量;

內(nèi)核與調(diào)度器優(yōu)化 :

使用cuDNN 后端實(shí)現(xiàn)注意力計(jì)算,并將調(diào)度器相關(guān)操作遷移到GPU,消除CPU-GPU 同步阻塞,提升硬件利用率。

3 ) 模型層面優(yōu)化:DreamZero-Flash,解耦噪聲調(diào)度實(shí)現(xiàn)單步去噪

擴(kuò)散步數(shù)仍是延遲的核心瓶頸,而簡(jiǎn)單減少步數(shù)會(huì)導(dǎo)致視覺(jué)噪聲傳導(dǎo)到動(dòng)作預(yù)測(cè),降低動(dòng)作質(zhì)量。為此,英偉達(dá)提出了 DreamZero-Flash ,通過(guò)在訓(xùn)練時(shí), 解耦視頻與動(dòng)作的噪聲調(diào)度 來(lái) 解決這一問(wèn)題。其核心思路是 :訓(xùn)練時(shí)讓視頻噪聲偏向高噪聲狀態(tài)(通過(guò)Beta分布采樣),同時(shí)保持動(dòng)作噪聲為均勻分布,讓模型學(xué)習(xí) 從含噪的視覺(jué)上下文直接預(yù)測(cè)干凈的動(dòng)作 。這一設(shè)計(jì)讓模型在推理時(shí)即使僅用1 步去噪,也能生成高質(zhì)量的動(dòng)作,最終將擴(kuò)散步數(shù)從4步降至1步,推理時(shí)延從約350ms降至約 150ms,且性能幾乎沒(méi)有損失。此外,DreamZero 還通過(guò) 動(dòng)作塊平滑處理 (上采樣+ Savitzky - Golay 濾波 + 下采樣)抑制生成動(dòng)作中的高頻噪聲,讓機(jī)器人的運(yùn)動(dòng)更平滑、更穩(wěn)定。

5. DreamZero : 三項(xiàng)核心技術(shù)

突破經(jīng)過(guò)上述架構(gòu)設(shè)計(jì)與技術(shù)優(yōu)化,DreamZero在具身智能的核心指標(biāo)上實(shí)現(xiàn)了顯著突破,性能顯著優(yōu)于當(dāng)前SOTA的VLA模型與早期WAM相關(guān)研究,其實(shí)驗(yàn)結(jié)果在真實(shí)機(jī)器人實(shí)驗(yàn)和 Genie Sim 3.0、PolaRiS 等權(quán)威仿真基準(zhǔn)上得到驗(yàn)證。

1 ) 泛化能力提升超2倍,實(shí)現(xiàn)跨環(huán)境、跨任務(wù)、跨具身泛化

DreamZero實(shí)現(xiàn)了超越傳統(tǒng)VLA和以往世界動(dòng)作模型的全新泛化能力 —— 跨環(huán)境、跨任務(wù)、跨具身。與當(dāng)前最先進(jìn)的預(yù)訓(xùn)練VLA模型 (GR00T N1.6與π 0.5 ) 相比,在環(huán)境與任務(wù)泛化基準(zhǔn)測(cè)試中,其平均任務(wù)進(jìn)度提升超過(guò)2倍。

2 ) 從多樣化異構(gòu)數(shù)據(jù)中高效學(xué)習(xí),打破對(duì)重復(fù)演示的依賴(lài)

DreamZero證明了通用機(jī)器人策略可以從多樣化、異構(gòu)數(shù)據(jù)中高效學(xué)習(xí),打破了“通用策略需要為每個(gè)任務(wù)提供多次重復(fù)演示”的傳統(tǒng)認(rèn)知。盡管已有研究表明,世界動(dòng)作模型從視頻預(yù)測(cè)中習(xí)得的先驗(yàn)相比VLA模型能提升動(dòng)作學(xué)習(xí)的樣本效率,但絕大多數(shù)相關(guān)工作仍聚焦于重復(fù)演示數(shù)據(jù)。正是這種多樣化數(shù)據(jù)的預(yù)訓(xùn)練,讓模型習(xí)得了不受特定場(chǎng)景干擾的通用物理先驗(yàn)——因此,即便經(jīng)過(guò)面向特定任務(wù)的后訓(xùn)練,DreamZero的環(huán)境泛化能力依然得以保留,在平均任務(wù)進(jìn)度上比當(dāng)前最優(yōu)的VLA模型高出10%。這表明模型不僅學(xué)習(xí)效率高,且學(xué)到的知識(shí)具備持久性與遷移性。

3 ) 跨具身遷移能力,純視頻學(xué)習(xí)+小樣本適配新機(jī)器人

DreamZero 實(shí)現(xiàn)了 兩種跨具身遷移形式 :

純視頻跨具身學(xué)習(xí) :

僅使用10–20分鐘來(lái)自其他機(jī)器人(YAM)或人類(lèi)的純視頻演示,就能讓目標(biāo)機(jī)器人(AgiBot G1)在未見(jiàn)過(guò)的任務(wù)上性能相對(duì)提升超過(guò) 42%;

小樣本具身自適應(yīng) :

在AgiBot G1上預(yù)訓(xùn)練的 DreamZero,僅用 30 分鐘的交互數(shù)據(jù) ,就能快速適配全新的機(jī)器人形態(tài)(YAM),且適配后仍能保留其零樣本泛化能力。

04

未來(lái)展望

DreamZero證明了預(yù)訓(xùn)練視頻擴(kuò)散模型可以成為機(jī)器人通用基礎(chǔ)模型的優(yōu)秀底座。通過(guò)聯(lián)合建模視頻與動(dòng)作,它使機(jī)器人能夠從海量互聯(lián)網(wǎng)視頻中繼承通用的物理時(shí)空先驗(yàn),大幅降低對(duì)真實(shí)機(jī)器人訓(xùn)練數(shù)據(jù)的依賴(lài),實(shí)現(xiàn)高效的通用技能學(xué)習(xí)與泛化。然而,DreamZero僅是這一技術(shù)路徑的初步探索。從未來(lái)發(fā)展來(lái)看,以下方向值得深入研究:

1)  WAM的縮放定律

使用更大的視頻主干模型、在更多樣化的數(shù)據(jù)上訓(xùn)練,能夠顯著提升下游性能。但目前我們?nèi)匀狈︶槍?duì)機(jī)器人基礎(chǔ)模型——尤其是世界動(dòng)作模型(WAM)——的系統(tǒng)性縮放定律證據(jù)。與大語(yǔ)言模型類(lèi)似,WAM的縮放規(guī)律取決于模型規(guī)模、數(shù)據(jù)規(guī)模與訓(xùn)練算力三者之間的協(xié)同關(guān)系。研究人員推測(cè),WAM的縮放趨勢(shì)將與VLA不同,可能呈現(xiàn)出更直接、更貼近動(dòng)作任務(wù)需求的縮放特性。對(duì)這一規(guī)律的深入探究,將是決定WAM能否持續(xù)擴(kuò)展能力邊界的關(guān)鍵。

2) 從真實(shí)場(chǎng)景人類(lèi)數(shù)據(jù)中學(xué)習(xí)

本研究初步驗(yàn)證了利用人類(lèi)第一人稱(chēng)數(shù)據(jù)可提升未見(jiàn)任務(wù)的性能,但實(shí)驗(yàn)仍局限于小規(guī)模實(shí)驗(yàn)室數(shù)據(jù)(僅12分鐘)。近期,大量分布更廣、與機(jī)器人操作相關(guān)的人類(lèi)視頻數(shù)據(jù)集已陸續(xù)公開(kāi)。由于WAM本身就在多樣化互聯(lián)網(wǎng)視頻上預(yù)訓(xùn)練,研究人員認(rèn)為:利用這些大規(guī)模人類(lèi)第一人稱(chēng)視頻,有望讓W(xué)AM比現(xiàn)有VLA更高效地遷移至下游機(jī)器人任務(wù)。這一方向?qū)⒊蔀楹罄m(xù)研究的重點(diǎn)。

3) 更快的推理速度

通過(guò)模型與系統(tǒng)優(yōu)化,DreamZero已在2塊GB200上實(shí)現(xiàn)7Hz頻率的閉環(huán)控制。但與消費(fèi)級(jí)GPU上可運(yùn)行至20Hz以上的現(xiàn)有VLA相比,DreamZero因參數(shù)量大、視頻模型需迭代去噪,計(jì)算開(kāi)銷(xiāo)仍然較高。未來(lái),若更小的視頻主干模型也能具備強(qiáng)泛化能力,WAM有望在輕量邊緣設(shè)備上作為實(shí)時(shí)System1(快系統(tǒng))模型部署,拓展其應(yīng)用場(chǎng)景。

4) 長(zhǎng)時(shí)程推理

當(dāng)前DreamZero架構(gòu)主要作為System1模型工作。盡管具備視覺(jué)記憶機(jī)制,但其記憶跨度目前僅為短時(shí)程(約6秒)。要實(shí)現(xiàn)穩(wěn)健的長(zhǎng)時(shí)程任務(wù)執(zhí)行,存在兩條技術(shù)路徑:一是引入System 2(慢系統(tǒng))規(guī)劃器,構(gòu)建模塊化雙系統(tǒng)架構(gòu);二是將WAM的上下文窗口大幅延長(zhǎng),借鑒視頻生成模型中長(zhǎng)時(shí)序一致性的相關(guān)技術(shù)。兩條路徑均具潛力,值得并行探索。

5) 高精度任務(wù)

盡管DreamZero在多樣化的任務(wù)與環(huán)境中展現(xiàn)出廣泛的泛化能力,但在鑰匙插入、精細(xì)裝配等亞厘米級(jí)精度要求的任務(wù)上,它仍帶有行為克隆方法的固有局限。當(dāng)前的多樣化預(yù)訓(xùn)練策略以任務(wù)廣度為優(yōu)先,可能導(dǎo)致對(duì)高精度操作所需的密集演示數(shù)據(jù)覆蓋不足。值得關(guān)注的是,近期研究表明:世界動(dòng)作模型在毫米級(jí)公差的高精度操作任務(wù)中反而具備潛在優(yōu)勢(shì)。這一積極信號(hào)提示,泛化廣度與精細(xì)靈巧之間的權(quán)衡,有望通過(guò)進(jìn)一步研究實(shí)現(xiàn)調(diào)和。

6) 面向WAM的機(jī)器人具身設(shè)計(jì)

研究人員提出,未來(lái)WAM的發(fā)展將對(duì)機(jī)器人具身形態(tài)提出新的設(shè)計(jì)要求,其中兩大核心因素值得關(guān)注:

自由度:

 高自由度機(jī)器人需要更多自由探索數(shù)據(jù),才能學(xué)習(xí)精準(zhǔn)的隱式逆動(dòng)力學(xué)模型——因?yàn)閺奈磥?lái)視覺(jué)狀態(tài)到電機(jī)控制指令的映射,會(huì)隨運(yùn)動(dòng)學(xué)復(fù)雜度呈組合式增長(zhǎng)。如何量化隱式逆動(dòng)力學(xué)模型的精度,仍是待解的行業(yè)難題。

擬人度: 

與人類(lèi)形態(tài)更接近的具身結(jié)構(gòu)(如具備靈巧操作能力的人形機(jī)器人),盡管自由度更高,但其遷移效率反而更優(yōu)。原因在于,這類(lèi)機(jī)器人能夠同時(shí)復(fù)用兩大資源:視頻預(yù)訓(xùn)練中習(xí)得的運(yùn)動(dòng)先驗(yàn),以及海量人類(lèi)第一人稱(chēng)視角視頻數(shù)據(jù)。這兩大因素的影響方向看似相悖,但類(lèi)人具身結(jié)構(gòu)最終可能占據(jù)優(yōu)勢(shì)——它以犧牲一定的機(jī)械簡(jiǎn)潔性為代價(jià),換取了訪(fǎng)問(wèn)全網(wǎng)規(guī)模人類(lèi)數(shù)據(jù)的資格。而這些數(shù)據(jù),正是下一代機(jī)器人基礎(chǔ)模型的核心燃料。

       原文標(biāo)題 : DreamZero:從語(yǔ)言理解到世界建!呱碇悄艿腤AM新范式

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)