123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

DreamZero：從語(yǔ)言理解到世界建模-具身智能的WAM新范式

2026-03-12 14:38

機(jī)器覺(jué)醒時(shí)代

在具身智能的發(fā)展進(jìn)程中，機(jī)器人要實(shí)現(xiàn)從“語(yǔ)言理解”到“物理交互”的跨越，仍面臨泛化能力不足、物理機(jī)理建模困難以及跨場(chǎng)景、跨本體遷移性差等核心挑戰(zhàn)。以視覺(jué)-語(yǔ)言-動(dòng)作模型（VLA）為代表的主流技術(shù)方案，借助預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型（VLM）強(qiáng)大的語(yǔ)義先驗(yàn)，在指令跟隨與簡(jiǎn)單物體操作任務(wù)上取得了顯著進(jìn)展。然而，其在未知環(huán)境下的場(chǎng)景泛化能力，尤其是在新技能學(xué)習(xí)與運(yùn)動(dòng)模式生成方面的適應(yīng)性，依然存在明顯局限。英偉達(dá)推出的DreamZero，作為基于預(yù)訓(xùn)練視頻擴(kuò)散主干構(gòu)建的新一代世界動(dòng)作模型（WAM），以140億參數(shù)的自回歸擴(kuò)散 Transformer 架構(gòu)為核心，通過(guò)聯(lián)合建模視頻與機(jī)器人動(dòng)作，有效繼承了海量視頻數(shù)據(jù)中蘊(yùn)含的物理與時(shí)空先驗(yàn)，突破了VLA的多項(xiàng)固有局限，實(shí)現(xiàn)了跨任務(wù)、跨環(huán)境、跨具身的零樣本/小樣本泛化，同時(shí)通過(guò)多維度技術(shù)優(yōu)化，達(dá)成了機(jī)器人控制所需的實(shí)時(shí)閉環(huán)控制效果。DreamZero整體概覽（圖片來(lái)源：英偉達(dá)論文）

01

當(dāng)前VLA模型的核心困境：懂語(yǔ)義，卻不懂物理VLA模型的核心思路在于，將預(yù)訓(xùn)練的VLM所蘊(yùn)含的視覺(jué)-語(yǔ)義知識(shí)遷移至機(jī)器人動(dòng)作學(xué)習(xí)領(lǐng)域，從而使機(jī)器人能夠理解自然語(yǔ)言指令、感知視覺(jué)場(chǎng)景并執(zhí)行相應(yīng)的物理操作。經(jīng)過(guò)多年發(fā)展，VLA模型逐漸形成了模塊化組合與端到端一體化兩種主流架構(gòu)。然而，這兩類(lèi)架構(gòu)所依賴(lài)的VLM主要實(shí)現(xiàn)了語(yǔ)義層面的泛化能力，尚未能真正建模和理解物理世界的動(dòng)力學(xué)規(guī)律，這成為制約VLA模型在實(shí)際機(jī)器人任務(wù)中落地的關(guān)鍵瓶頸。

1. 分模塊VLA：依賴(lài)固定技能庫(kù)，易產(chǎn)生跨模塊誤差累積

分模塊VLA是早期VLA的典型架構(gòu)形式，其核心設(shè)計(jì)為解耦“高層規(guī)劃”與“底層執(zhí)行” 兩個(gè)環(huán)節(jié)：將預(yù)訓(xùn)練VLM作為 “黑箱推理器” 負(fù)責(zé)語(yǔ)義推理與任務(wù)規(guī)劃，再由專(zhuān)用的底層機(jī)器人策略或控制器完成動(dòng)作執(zhí)行。該模塊化設(shè)計(jì)雖簡(jiǎn)化了復(fù)雜任務(wù)的規(guī)劃流程，提升了初期開(kāi)發(fā)效率，但存在相關(guān)局限性。

1）高度依賴(lài)預(yù)先構(gòu)建的底層技能庫(kù)，泛化能力受限

分模塊VLA的底層執(zhí)行高度依賴(lài)語(yǔ)言條件運(yùn)動(dòng)基元庫(kù)——即一組將語(yǔ)言指令與固定運(yùn)動(dòng)模式綁定的動(dòng)作模塊（如抓取、放置、插入等）。在該范式下，VLM的核心作用僅限于“聽(tīng)指令選模塊”，其泛化能力僅體現(xiàn)在語(yǔ)義理解層面；而底層執(zhí)行的泛化范圍則完全受限于技能庫(kù)的覆蓋邊界。然而，現(xiàn)實(shí)世界的物理交互具有多樣性與復(fù)雜性，預(yù)設(shè)的動(dòng)作模板難以覆蓋全部應(yīng)用場(chǎng)景。例如，機(jī)器人可執(zhí)行訓(xùn)練過(guò)的“將可樂(lè)罐移至桌面”指令，卻無(wú)法完成“解開(kāi)鞋帶”或“按壓烤面包機(jī)杠桿”等新技能操作。若要實(shí)現(xiàn)新任務(wù)的跨環(huán)境泛化，往往需要針對(duì)不同場(chǎng)景收集數(shù)百組人類(lèi)遙操作數(shù)據(jù)進(jìn)行重訓(xùn)，整體開(kāi)發(fā)成本高昂，難以適配開(kāi)放世界。

2）跨模塊誤差易累積，對(duì)接口穩(wěn)健性要求嚴(yán)苛

上層VLM與底層控制器之間通過(guò)指令序列、視覺(jué)軌跡、功能性感知結(jié)果三類(lèi)信號(hào)交互，但這一接口本身是“不可微”的 —— VLM的規(guī)劃誤差會(huì)傳遞到底層執(zhí)行，底層執(zhí)行的物理誤差又會(huì)反饋給上層規(guī)劃，形成跨模塊誤差累積。同時(shí)，抽象的語(yǔ)義規(guī)劃與具體的物理執(zhí)行之間需要極強(qiáng)的接口穩(wěn)健性，一旦場(chǎng)景稍有變化，就容易出現(xiàn)規(guī)劃與執(zhí)行的錯(cuò)位問(wèn)題。

2. 端到端 VLA：缺乏物理與時(shí)空先驗(yàn)，新技能新環(huán)境泛化薄弱

模塊化 VLA 因模塊接口復(fù)雜、誤差逐級(jí)傳遞、依賴(lài)人工定義技能庫(kù)等問(wèn)題難以實(shí)現(xiàn)高效泛化。為從架構(gòu)層面突破上述瓶頸，端到端一體化 VLA被提出。這類(lèi)模型擺脫了規(guī)劃-控制的分層結(jié)構(gòu)，將語(yǔ)言條件語(yǔ)義與底層機(jī)器人動(dòng)作融合在同一個(gè)模型中，由大規(guī)模預(yù)訓(xùn)練VLM初始化，實(shí)現(xiàn)了 “視覺(jué) + 語(yǔ)言→動(dòng)作” 的端到端映射，在視覺(jué)- 語(yǔ)義知識(shí)遷移上取得了前沿進(jìn)展。但端到端VLA 的底層底座仍是在靜態(tài)圖像 - 文本數(shù)據(jù)集上預(yù)訓(xùn)練的 VLM，這一本質(zhì)特征讓其存在先天難以從根本上彌補(bǔ)的短板：缺乏學(xué)習(xí)時(shí)空先驗(yàn)的能力。所謂物理與時(shí)空先驗(yàn) ，是模型從視頻、機(jī)器人交互等連續(xù)時(shí)序數(shù)據(jù)中學(xué)到的物理規(guī)律，讓機(jī)器人理解“空間結(jié)構(gòu)是什么、動(dòng)作會(huì)帶來(lái)什么變化”，是從 “懂語(yǔ)義” 升級(jí)到 “懂物理” 的核心。而靜態(tài)圖文數(shù)據(jù)僅能讓 VLM 學(xué)會(huì) “識(shí)別物體、理解指令”，卻無(wú)法讓其掌握重力、碰撞、運(yùn)動(dòng)動(dòng)力學(xué)等物理知識(shí)，也無(wú)法匹配精準(zhǔn)的空間感知、幾何結(jié)構(gòu)與運(yùn)動(dòng)控制。因此，端到端VLA 的泛化能力仍?xún)H局限在物體層面與語(yǔ)義層面，在全新運(yùn)動(dòng)技能、全新開(kāi)放環(huán)境上的泛化能力依然比較弱。若不專(zhuān)門(mén)收集大規(guī)模面向特定任務(wù)與環(huán)境的動(dòng)作數(shù)據(jù)，端到端VLA 既無(wú)法適應(yīng)新環(huán)境，也無(wú)法在專(zhuān)家演示分布之外的新任務(wù)上實(shí)現(xiàn)泛化�？傊瑹o(wú)論是分模塊還是端到端VLA，其核心問(wèn)題均可歸結(jié)為：僅繼承了VLM 的語(yǔ)義先驗(yàn)，卻缺乏物理與時(shí)空先驗(yàn)，即物理世界的動(dòng)力學(xué)先驗(yàn)。盡管VLM先驗(yàn)在語(yǔ)義層面編碼了要執(zhí)行什么操作，但它們?nèi)狈θ绾我劳芯珳?zhǔn)空間感知來(lái)執(zhí)行動(dòng)作的表征，無(wú)法與幾何結(jié)構(gòu)、動(dòng)力學(xué)特性及運(yùn)動(dòng)控制相匹配。這種“ 語(yǔ)義- 物理 ”的鴻溝，讓 VLA 始終難以擺脫對(duì)大規(guī)模特定任務(wù)數(shù)據(jù)的依賴(lài)，也無(wú)法實(shí)現(xiàn)真正意義上的開(kāi)放世界泛化。而要破解這一問(wèn)題，核心思路是讓模型從連續(xù)時(shí)序數(shù)據(jù)中學(xué)習(xí)物理動(dòng)力學(xué)規(guī)律，而視頻數(shù)據(jù)因其天然的時(shí)序?qū)傩院蛯?duì)物理過(guò)程的完整記錄，成為該研究方向的關(guān)鍵數(shù)據(jù)載體。

02

從視頻生成到WAM：具身智能的全新解決方案

視頻數(shù)據(jù)包含連續(xù)的視覺(jué)幀變化，天然編碼了物理世界的時(shí)空規(guī)律、運(yùn)動(dòng)因果與動(dòng)力學(xué)特性，成為彌補(bǔ)VLA物理先驗(yàn)缺失的關(guān)鍵。隨著視頻生成模型的發(fā)展，研究者開(kāi)始探索將視頻生成與機(jī)器人動(dòng)作生成結(jié)合，最終誕生了世界動(dòng)作模型（WAM），成為突破VLA困境的新一代技術(shù)范式。

1. 機(jī)器人領(lǐng)域的視頻生成：從隱式世界模型到動(dòng)作映射

在WAM誕生之前，視頻生成模型就已應(yīng)用于機(jī)器人領(lǐng)域，其核心作用是作為隱式的“世界模型”，通過(guò)合成機(jī)器人操作的視覺(jué)軌跡——即模型學(xué)習(xí)視覺(jué)時(shí)空先驗(yàn)，預(yù)測(cè)未來(lái)幀中機(jī)器人/物體的視覺(jué)運(yùn)動(dòng)路徑——來(lái)模擬物理交互的動(dòng)態(tài)過(guò)程。隨后，再通過(guò)多種方式將這一視覺(jué)預(yù)測(cè)轉(zhuǎn)化為機(jī)器人可執(zhí)行的物理動(dòng)作，主要包括三種方法：

逆動(dòng)力學(xué)模型：

從視頻預(yù)測(cè)的末端執(zhí)行器3D軌跡出發(fā)，首先通過(guò)逆運(yùn)動(dòng)學(xué)解算為期望的關(guān)節(jié)空間軌跡（含位置、速度）。隨后，基于機(jī)器人動(dòng)力學(xué)模型，通過(guò)逆動(dòng)力學(xué)計(jì)算實(shí)現(xiàn)該期望運(yùn)動(dòng)所需的關(guān)節(jié)力矩，并將其作為底層轉(zhuǎn)矩指令發(fā)送至執(zhí)行器進(jìn)行跟蹤。

光流作為稠密對(duì)應(yīng)：

利用視頻連續(xù)幀間的像素級(jí)運(yùn)動(dòng)向量（光流），建立從當(dāng)前到目標(biāo)狀態(tài)的稠密像素對(duì)應(yīng)關(guān)系。這種方法能捕捉物體的非剛性形變和精細(xì)運(yùn)動(dòng)，尤其適用于需要隱式理解物體幾何與物理屬性的操作，如抓取可變性物體或高精度裝配。

軌跡預(yù)測(cè)作為高層規(guī)劃：

該方法應(yīng)用于模塊化系統(tǒng)設(shè)計(jì)，視頻生成模型充當(dāng)高層規(guī)劃器，輸出參考軌跡（如一系列運(yùn)動(dòng)基元或關(guān)鍵路徑點(diǎn)）；而底層則由一個(gè)專(zhuān)用的運(yùn)動(dòng)控制器負(fù)責(zé)，通過(guò)閉環(huán)控制實(shí)現(xiàn)對(duì)參考軌跡的精確跟蹤與實(shí)時(shí)修正。這一階段的研究證明，視頻生成模型能隱式學(xué)習(xí)豐富的物理動(dòng)態(tài)先驗(yàn)，為機(jī)器人提供視覺(jué)運(yùn)動(dòng)引導(dǎo)。然而，該范式本質(zhì)上是開(kāi)環(huán)的：模型僅負(fù)責(zé)從觀測(cè)預(yù)測(cè)未來(lái)，其輸出的視覺(jué)軌跡與機(jī)器人的底層動(dòng)作執(zhí)行相互割裂。這種“感知-預(yù)測(cè)”與“動(dòng)作”的分離，導(dǎo)致模型無(wú)法從執(zhí)行結(jié)果中學(xué)習(xí)因果關(guān)聯(lián)，難以應(yīng)對(duì)真實(shí)世界中復(fù)雜的接觸動(dòng)力學(xué)和未預(yù)見(jiàn)的干擾，因此其泛化能力，尤其是在新物體、新場(chǎng)景下的零樣本執(zhí)行能力，仍然存在根本性局限。

2. 視頻與動(dòng)作聯(lián)合生成：WAM 的誕生邏輯

為實(shí)現(xiàn)視覺(jué)理解與動(dòng)作執(zhí)行的深度融合，研究者提出了視頻生成與動(dòng)作生成聯(lián)合學(xué)習(xí)的范式，旨在通過(guò)統(tǒng)一的模型實(shí)現(xiàn)端到端的世界建模與動(dòng)作預(yù)測(cè)。最后，經(jīng)研究證明，在動(dòng)作預(yù)測(cè)的同時(shí)引入世界建模目標(biāo)（即預(yù)測(cè)未來(lái)視覺(jué)狀態(tài)），能顯著提升模型的多任務(wù)性能、樣本效率以及對(duì)新場(chǎng)景、新物體的泛化能力。早期的聯(lián)合建模嘗試，無(wú)論是采用"先視頻生成、后逆動(dòng)力學(xué)反推"的分階段方法，還是嘗試在同一雙向擴(kuò)散架構(gòu)中聯(lián)合學(xué)習(xí)視頻與動(dòng)作，均面臨視頻-動(dòng)作對(duì)齊失效、時(shí)間流扭曲或動(dòng)力學(xué)先驗(yàn)不足等根本性挑戰(zhàn)。近期的研究突破則選擇以預(yù)訓(xùn)練視頻擴(kuò)散模型作為基礎(chǔ)骨干，讓模型直接繼承海量互聯(lián)網(wǎng)視頻數(shù)據(jù)中隱式編碼的豐富視覺(jué)動(dòng)力學(xué)先驗(yàn)（如重力、接觸、形變等）。WAM 的核心設(shè)計(jì)便是學(xué)習(xí)視頻與動(dòng)作的聯(lián)合分布，這也是其區(qū)別于VLA和傳統(tǒng)世界模型的關(guān)鍵。所謂視頻與動(dòng)作的聯(lián)合分布，即模型同時(shí)學(xué)習(xí)「機(jī)器人動(dòng)作」和「畫(huà)面時(shí)序變化」之間的因果綁定關(guān)系，實(shí)現(xiàn)雙向映射：已知?jiǎng)幼�，能精�?zhǔn)預(yù)測(cè)未來(lái)的視覺(jué)畫(huà)面（世界建模）；已知目標(biāo)視覺(jué)畫(huà)面，能反推出對(duì)應(yīng)的機(jī)器人動(dòng)作（動(dòng)作生成）。在這一機(jī)制中，視頻預(yù)測(cè)扮演了隱式視覺(jué)規(guī)劃器的角色—— 模型不輸出任何文字步驟、符號(hào)指令等顯式規(guī)劃信息，而是通過(guò)預(yù)測(cè)未來(lái)的連續(xù)視覺(jué)幀，間接引導(dǎo)動(dòng)作生成，讓動(dòng)作始終與物理世界的變化保持對(duì)齊。這種隱式規(guī)劃方式，讓 WAM 擺脫了固定規(guī)劃模板的限制，更適配開(kāi)放世界的復(fù)雜場(chǎng)景。值得注意的是，研究者將其命名為"世界動(dòng)作模型（WAM）"而非"視頻動(dòng)作模型（VAM）" 。這一命名的深意在于：視頻只是世界建模的一種稠密表示形式。未來(lái)的WAM可將動(dòng)作與觸覺(jué)感知、力反饋、隱空間表征等其他預(yù)測(cè)模態(tài)進(jìn)行對(duì)齊，從而實(shí)現(xiàn)對(duì)物理世界更全面的建模，具備更強(qiáng)的擴(kuò)展性與跨具身遷移能力。

03

DreamZero：WAM的全新技術(shù)范式

英偉達(dá) DreamZero是基于預(yù)訓(xùn)練圖像轉(zhuǎn)視頻擴(kuò)散主干網(wǎng)絡(luò)構(gòu)建的140億參數(shù)規(guī)模的機(jī)器人基礎(chǔ)模型，采用自回歸擴(kuò)散 Transformer（DiT）架構(gòu)，通過(guò)教師強(qiáng)制分塊視頻去噪目標(biāo)訓(xùn)練，實(shí)現(xiàn)了視頻與動(dòng)作的深度聯(lián)合建模。

1.DreamZero 核心設(shè)計(jì)：三大轉(zhuǎn)化挑戰(zhàn)與針對(duì)性解決方案

預(yù)訓(xùn)練視頻擴(kuò)散模型從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中習(xí)得并繼承了豐富的時(shí)空先驗(yàn)，成為構(gòu)建機(jī)器人策略主干網(wǎng)絡(luò)的優(yōu)質(zhì)選擇。但將這類(lèi)模型轉(zhuǎn)化為可實(shí)際落地的有效世界動(dòng)作模型（WAM），仍面臨三大核心技術(shù)挑戰(zhàn)：

1）視頻-動(dòng)作模態(tài)對(duì)齊：

聯(lián)合預(yù)測(cè)視頻與動(dòng)作的核心要求是實(shí)現(xiàn)視覺(jué)未來(lái)狀態(tài)與運(yùn)動(dòng)指令的緊密耦合，若簡(jiǎn)單拼接獨(dú)立的視頻頭與動(dòng)作頭，極易導(dǎo)致二者模態(tài)錯(cuò)位，無(wú)法實(shí)現(xiàn)有效聯(lián)動(dòng)。

2）架構(gòu)設(shè)計(jì)選型：

雙向架構(gòu)與自回歸架構(gòu)對(duì)WAM 的適配性尚未形成明確結(jié)論，而架構(gòu)的選擇會(huì)直接影響模態(tài)對(duì)齊效果、推理過(guò)程中的誤差累積程度以及整體推理效率。

3）實(shí)時(shí)推理效率：

視頻擴(kuò)散模型的推理需在高維隱空間中完成迭代去噪操作，這一特性導(dǎo)致模型推理延遲過(guò)高，無(wú)法直接應(yīng)用于機(jī)器人閉環(huán)控制場(chǎng)景。針對(duì)上述三大挑戰(zhàn)，DreamZero 通過(guò)三項(xiàng)針對(duì)性的設(shè)計(jì)策略實(shí)現(xiàn)了技術(shù)突破，成功將預(yù)訓(xùn)練視頻擴(kuò)散模型轉(zhuǎn)化為高效可用的 WAM：

構(gòu)建單一端到端模型：

采用共享目標(biāo)函數(shù)對(duì)視頻與動(dòng)作模態(tài)進(jìn)行聯(lián)合去噪，從模型底層架構(gòu)上確保二者的深度融合與精準(zhǔn)對(duì)齊。

選用自回歸架構(gòu)并結(jié)合閉環(huán)執(zhí)行設(shè)置：

在每個(gè)動(dòng)作塊執(zhí)行完成后，將KV 緩存中的預(yù)測(cè)幀替換為真實(shí)視覺(jué)觀測(cè)值，從根源上消除自回歸推理中的誤差累積；同時(shí)借助 KV 緩存實(shí)現(xiàn)高效推理，且能保留視頻原生幀率，進(jìn)一步保障視頻與動(dòng)作的模態(tài)對(duì)齊精度。

系統(tǒng)、實(shí)現(xiàn)、模型三層面優(yōu)化：

通過(guò)多維度的技術(shù)優(yōu)化實(shí)現(xiàn)了38倍的推理加速，最終讓模型支持以7Hz的頻率完成機(jī)器人實(shí)時(shí)閉環(huán)控制。

2. DreamZero 模型架構(gòu)：三輸入 + 單主干 + 雙輸出的端到端設(shè)計(jì)

DreamZero采用端到端自回歸架構(gòu)，以預(yù)訓(xùn)練視頻擴(kuò)散模型（Wan2.1-I2V-14B）為骨干，僅引入少量新增參數(shù)（如動(dòng)作解碼器、狀態(tài)編碼器）實(shí)現(xiàn)視頻與動(dòng)作的聯(lián)合預(yù)測(cè)。其架構(gòu)可概括為：三類(lèi)輸入（視覺(jué)觀測(cè)、語(yǔ)言指令、本體狀態(tài)）、一個(gè)自回歸DiT主干、視頻與動(dòng)作雙輸出頭。核心設(shè)計(jì)在于"條件輸入下的視頻-動(dòng)作聯(lián)合生成"，通過(guò)自回歸生成與KV緩存回灌機(jī)制，實(shí)現(xiàn)視覺(jué)演變與動(dòng)作指令的深度耦合。

DreamZero模型架構(gòu)：模型訓(xùn)練和模型推理（圖片來(lái)源：英偉達(dá)論文）

1 ）三類(lèi)條件輸入：全方位感知任務(wù)與環(huán)境信息

DreamZero 的輸入覆蓋了視覺(jué)、語(yǔ)言、機(jī)器人自身狀態(tài) 三大維度，所有輸入均經(jīng)過(guò)專(zhuān)屬編碼器處理為低維隱變量，確保模型能全面理解任務(wù)指令、視覺(jué)場(chǎng)景與自身狀態(tài)，為聯(lián)合預(yù)測(cè)提供充足的條件信息。

視覺(jué)上下文：

即機(jī)器人當(dāng)前與歷史的視覺(jué)觀測(cè)幀序列，通過(guò) VAE 編碼器壓縮為低維隱變量，在保留視覺(jué)細(xì)節(jié)的同時(shí)大幅降低計(jì)算量，是模型學(xué)習(xí)物理規(guī)律的核心輸入；

語(yǔ)言指令：

即自然語(yǔ)言形式的任務(wù)描述（如“把橙子放進(jìn)南瓜里”“按壓電梯按鈕”），通過(guò) 文本編碼器轉(zhuǎn)化為語(yǔ)義條件向量，告訴模型“需要完成什么任務(wù)”；

本體感受狀態(tài) ：

即機(jī)器人自身的物理狀態(tài)，包括關(guān)節(jié)角度、末端執(zhí)行器位姿、夾爪狀態(tài)等，通過(guò) 狀態(tài)編碼器轉(zhuǎn)化為狀態(tài)條件向量，告訴模型“當(dāng)前在哪里、處于什么姿態(tài)”。對(duì)于多視角的機(jī)器人訓(xùn)練數(shù)據(jù)，DreamZero 僅將所有視角拼接為單幀，無(wú)需對(duì)主干網(wǎng)絡(luò)做架構(gòu)修改，最大程度保留了預(yù)訓(xùn)練視頻模型的泛化能力。

2 ）自回歸DiT主干網(wǎng)絡(luò)：流匹配 + 自回歸架構(gòu)

所有編碼后的輸入均送入采用流匹配方法的自回歸擴(kuò)散Transformer（DiT）主干網(wǎng)絡(luò)，這是 DreamZero 的核心計(jì)算模塊：

流匹配：

學(xué)習(xí)從"噪聲分布"到"真實(shí)數(shù)據(jù)分布"的連續(xù)向量場(chǎng)，支持視頻與動(dòng)作的聯(lián)合去噪，保證二者對(duì)齊；

自回歸架構(gòu) ：

確保模型僅依賴(lài)過(guò)去信息生成未來(lái)內(nèi)容，符合物理時(shí)序邏輯。借助KV緩存實(shí)現(xiàn)高效推理，保留原始視頻幀率，保證幀與動(dòng)作的精準(zhǔn)對(duì)齊。

3 ）雙解碼器：聯(lián)合輸出未來(lái)視覺(jué)幀與可執(zhí)行動(dòng)作序列

經(jīng)過(guò)自回歸DiT 主干網(wǎng)絡(luò)處理后，模型通過(guò) VAE解碼器和動(dòng)作解碼器兩個(gè)獨(dú)立解碼器，實(shí)現(xiàn) 未來(lái)視頻幀與連續(xù)動(dòng)作序列的聯(lián)合預(yù)測(cè)：

VAE 解碼器：

將視頻隱變量還原為未來(lái)視覺(jué)幀，作為隱式視覺(jué)規(guī)劃器引導(dǎo)動(dòng)作生成；

動(dòng)作解碼器：

將動(dòng)作隱變量還原為機(jī)器人可執(zhí)行的連續(xù)動(dòng)作塊，其時(shí)間跨度與視頻分塊完全對(duì)齊，確保動(dòng)作執(zhí)行后能產(chǎn)生與預(yù)測(cè)視頻相一致的視覺(jué)變化。這種“單主干 + 雙解碼器” 的設(shè)計(jì)，既實(shí)現(xiàn)了視頻與動(dòng)作的深度融合，又保證了兩類(lèi)輸出的獨(dú)立性，避免了模態(tài)之間的干擾。

3. DreamZero 訓(xùn)練方式：教師強(qiáng)制下的分塊視頻-動(dòng)作聯(lián)合去噪

DreamZero的訓(xùn)練核心是以真實(shí)歷史為條件，對(duì) 分塊視頻與動(dòng)作進(jìn)行聯(lián)合流匹配去噪。這一范式結(jié)合了分塊處理、教師強(qiáng)制、流匹配三大技術(shù)。

1 ）分塊處理：適配長(zhǎng)時(shí)序任務(wù)

DreamZero將長(zhǎng)時(shí)序的視頻與動(dòng)作序列拆分為多個(gè)固定長(zhǎng)度的分塊（Chunk）。每個(gè)視頻分塊包含固定數(shù)量的隱式幀，且與動(dòng)作分塊的時(shí)間跨度完全對(duì)齊。這種分塊方式讓模型能對(duì)可變長(zhǎng)度的序列進(jìn)行訓(xùn)練，類(lèi)似于大語(yǔ)言模型對(duì)文本Token的處理，既避免了長(zhǎng)時(shí)序訓(xùn)練的梯度消失/計(jì)算爆炸，又能適配復(fù)雜的長(zhǎng)時(shí)程機(jī)器人任務(wù)。

2）教師強(qiáng)制：用真實(shí)數(shù)據(jù)引導(dǎo)穩(wěn)定訓(xùn)練

在訓(xùn)練過(guò)程中，DreamZero采用教師強(qiáng)制（Teacher Forcing）策略：模型始終以干凈的真實(shí)歷史數(shù)據(jù)（前序視頻幀、動(dòng)作、狀態(tài)）為條件，對(duì)含噪聲的當(dāng)前分塊（視頻/動(dòng)作隱變量）進(jìn)行聯(lián)合去噪。這一設(shè)計(jì)確保模型在訓(xùn)練初期始終基于真實(shí)的物理狀態(tài)進(jìn)行預(yù)測(cè)，避免了因自身預(yù)測(cè)偏差累積導(dǎo)致的訓(xùn)練崩潰，大幅提升了訓(xùn)練的穩(wěn)定性和收斂速度。

3 ）聯(lián)合流匹配去噪：共享去噪時(shí)間步，實(shí)現(xiàn)視頻-動(dòng)作深度對(duì)齊

DreamZero以流匹配為核心訓(xùn)練目標(biāo)，對(duì)視頻和動(dòng)作隱變量進(jìn)行聯(lián)合去噪，并在兩模態(tài)間共享去噪時(shí)間步，使模型在訓(xùn)練初期即能學(xué)習(xí)二者的因果綁定。形式化地，模型將干凈的視頻/動(dòng)作隱變量與隨機(jī)噪聲線(xiàn)性插值，得到含噪隱變量，再預(yù)測(cè)從含噪狀態(tài)到干凈狀態(tài)的聯(lián)合速度場(chǎng)，通過(guò)最小化預(yù)測(cè)速度與真實(shí)速度的誤差更新參數(shù)。同時(shí)，模型施加因果注意力掩碼，確保當(dāng)前分塊僅能關(guān)注前序分塊的干凈上下文，嚴(yán)格遵循時(shí)序邏輯。注：針對(duì)實(shí)時(shí)控制的加速版本DreamZero-Flash采用解耦噪聲調(diào)度，允許視頻和動(dòng)作處于不同的噪聲水平，以實(shí)現(xiàn)單步推理。

4. DreamZero 實(shí)時(shí)推理優(yōu)化：38倍加速，實(shí)現(xiàn)7Hz閉環(huán)控制

基于擴(kuò)散模型的WAM雖具備強(qiáng)大的泛化能力，但迭代去噪過(guò)程帶來(lái)的高延遲，使其與機(jī)器人的反應(yīng)式控制存在本質(zhì)矛盾—— 原始 DreamZero 在單 GPU 上生成一個(gè)動(dòng)作塊需要約5.7秒，難以實(shí)現(xiàn)實(shí)時(shí)閉環(huán)控制。為解決這一問(wèn)題，DreamZero 從系統(tǒng)、實(shí)現(xiàn)、模型三個(gè)層面進(jìn)行了全方位的優(yōu)化，最終實(shí)現(xiàn)了 38 倍的推理加速，將單動(dòng)作塊的推理延遲從5.7 秒降至150毫秒，支持以7Hz的頻率實(shí)現(xiàn)實(shí)時(shí)閉環(huán)控制。

1 ）系統(tǒng)層面優(yōu)化：并行化 + 緩存優(yōu)化推理吞吐量

將模型推理與機(jī)器人動(dòng)作執(zhí)行解耦，運(yùn)動(dòng)控制器持續(xù)執(zhí)行最新的動(dòng)作塊，推理程序基于最新觀測(cè)并行運(yùn)行，將延遲約束從“推理必須在運(yùn)動(dòng)前完成”轉(zhuǎn)變?yōu)椤巴评肀仨氃诋?dāng)前動(dòng)作塊耗盡前完成” 。在異步執(zhí)行框架下，通過(guò)并行化與緩存優(yōu)化推理吞吐量：

CFG 并行：

將無(wú)分類(lèi)器引導(dǎo)的兩次前向傳播（條件/無(wú)條件）分配到兩張GPU上并行執(zhí)行，單步推理延遲降低47%；

DiT 緩存：

利用流匹配中速度預(yù)測(cè)的方向一致性，當(dāng)連續(xù)速度的余弦相似度超過(guò)閾值時(shí) ，復(fù)用緩存的速度，將有效DiT步數(shù)從16步減少到4步，且?guī)缀醪粨p失動(dòng)作預(yù)測(cè)質(zhì)量。

2 ）實(shí)現(xiàn)層面優(yōu)化：編譯器+量化+內(nèi)核優(yōu)化，降低硬件開(kāi)銷(xiāo)

Torch Compile + CUDA Graph ：

利用PyTorch編譯工具消除CPU開(kāi)銷(xiāo)，并通過(guò) CUDA Graph 實(shí)現(xiàn)算子融合。靜態(tài)形狀僅在第一條軌跡時(shí)觸發(fā)重新編譯，大幅提升推理速度；

訓(xùn)練后量化：

在Blackwell架構(gòu)上將模型權(quán)重與激活量化為 NVFP4 格式，僅將 QKV、Softmax 等敏感操作保留在FP8，非線(xiàn)性操作保留在 FP16，在幾乎不損失精度的前提下大幅降低顯存占用和計(jì)算量；

內(nèi)核與調(diào)度器優(yōu)化：

使用cuDNN 后端實(shí)現(xiàn)注意力計(jì)算，并將調(diào)度器相關(guān)操作遷移到GPU，消除CPU-GPU 同步阻塞，提升硬件利用率。

3 ）模型層面優(yōu)化：DreamZero-Flash，解耦噪聲調(diào)度實(shí)現(xiàn)單步去噪

擴(kuò)散步數(shù)仍是延遲的核心瓶頸，而簡(jiǎn)單減少步數(shù)會(huì)導(dǎo)致視覺(jué)噪聲傳導(dǎo)到動(dòng)作預(yù)測(cè)，降低動(dòng)作質(zhì)量。為此，英偉達(dá)提出了 DreamZero-Flash ，通過(guò)在訓(xùn)練時(shí)，解耦視頻與動(dòng)作的噪聲調(diào)度來(lái) 解決這一問(wèn)題。其核心思路是：訓(xùn)練時(shí)讓視頻噪聲偏向高噪聲狀態(tài)（通過(guò)Beta分布采樣），同時(shí)保持動(dòng)作噪聲為均勻分布，讓模型學(xué)習(xí) 從含噪的視覺(jué)上下文直接預(yù)測(cè)干凈的動(dòng)作。這一設(shè)計(jì)讓模型在推理時(shí)即使僅用1 步去噪，也能生成高質(zhì)量的動(dòng)作，最終將擴(kuò)散步數(shù)從4步降至1步，推理時(shí)延從約350ms降至約 150ms，且性能幾乎沒(méi)有損失。此外，DreamZero 還通過(guò) 動(dòng)作塊平滑處理（上采樣+ Savitzky - Golay 濾波 + 下采樣）抑制生成動(dòng)作中的高頻噪聲，讓機(jī)器人的運(yùn)動(dòng)更平滑、更穩(wěn)定。

5. DreamZero ：三項(xiàng)核心技術(shù)

突破經(jīng)過(guò)上述架構(gòu)設(shè)計(jì)與技術(shù)優(yōu)化，DreamZero在具身智能的核心指標(biāo)上實(shí)現(xiàn)了顯著突破，性能顯著優(yōu)于當(dāng)前SOTA的VLA模型與早期WAM相關(guān)研究，其實(shí)驗(yàn)結(jié)果在真實(shí)機(jī)器人實(shí)驗(yàn)和 Genie Sim 3.0、PolaRiS 等權(quán)威仿真基準(zhǔn)上得到驗(yàn)證。

1 ）泛化能力提升超2倍，實(shí)現(xiàn)跨環(huán)境、跨任務(wù)、跨具身泛化

DreamZero實(shí)現(xiàn)了超越傳統(tǒng)VLA和以往世界動(dòng)作模型的全新泛化能力 —— 跨環(huán)境、跨任務(wù)、跨具身。與當(dāng)前最先進(jìn)的預(yù)訓(xùn)練VLA模型（GR00T N1.6與π 0.5 ）相比，在環(huán)境與任務(wù)泛化基準(zhǔn)測(cè)試中，其平均任務(wù)進(jìn)度提升超過(guò)2倍。

2 ）從多樣化異構(gòu)數(shù)據(jù)中高效學(xué)習(xí)，打破對(duì)重復(fù)演示的依賴(lài)

DreamZero證明了通用機(jī)器人策略可以從多樣化、異構(gòu)數(shù)據(jù)中高效學(xué)習(xí)，打破了“通用策略需要為每個(gè)任務(wù)提供多次重復(fù)演示”的傳統(tǒng)認(rèn)知。盡管已有研究表明，世界動(dòng)作模型從視頻預(yù)測(cè)中習(xí)得的先驗(yàn)相比VLA模型能提升動(dòng)作學(xué)習(xí)的樣本效率，但絕大多數(shù)相關(guān)工作仍聚焦于重復(fù)演示數(shù)據(jù)。正是這種多樣化數(shù)據(jù)的預(yù)訓(xùn)練，讓模型習(xí)得了不受特定場(chǎng)景干擾的通用物理先驗(yàn)——因此，即便經(jīng)過(guò)面向特定任務(wù)的后訓(xùn)練，DreamZero的環(huán)境泛化能力依然得以保留，在平均任務(wù)進(jìn)度上比當(dāng)前最優(yōu)的VLA模型高出10%。這表明模型不僅學(xué)習(xí)效率高，且學(xué)到的知識(shí)具備持久性與遷移性。

3 ）跨具身遷移能力，純視頻學(xué)習(xí)+小樣本適配新機(jī)器人

DreamZero 實(shí)現(xiàn)了兩種跨具身遷移形式：

純視頻跨具身學(xué)習(xí) ：

僅使用10–20分鐘來(lái)自其他機(jī)器人（YAM）或人類(lèi)的純視頻演示，就能讓目標(biāo)機(jī)器人（AgiBot G1）在未見(jiàn)過(guò)的任務(wù)上性能相對(duì)提升超過(guò) 42%；

小樣本具身自適應(yīng) ：

在AgiBot G1上預(yù)訓(xùn)練的 DreamZero，僅用 30 分鐘的交互數(shù)據(jù) ，就能快速適配全新的機(jī)器人形態(tài)（YAM），且適配后仍能保留其零樣本泛化能力。

04

未來(lái)展望

DreamZero證明了預(yù)訓(xùn)練視頻擴(kuò)散模型可以成為機(jī)器人通用基礎(chǔ)模型的優(yōu)秀底座。通過(guò)聯(lián)合建模視頻與動(dòng)作，它使機(jī)器人能夠從海量互聯(lián)網(wǎng)視頻中繼承通用的物理時(shí)空先驗(yàn)，大幅降低對(duì)真實(shí)機(jī)器人訓(xùn)練數(shù)據(jù)的依賴(lài)，實(shí)現(xiàn)高效的通用技能學(xué)習(xí)與泛化。然而，DreamZero僅是這一技術(shù)路徑的初步探索。從未來(lái)發(fā)展來(lái)看，以下方向值得深入研究：

1) WAM的縮放定律

使用更大的視頻主干模型、在更多樣化的數(shù)據(jù)上訓(xùn)練，能夠顯著提升下游性能。但目前我們?nèi)匀狈︶槍?duì)機(jī)器人基礎(chǔ)模型——尤其是世界動(dòng)作模型（WAM）——的系統(tǒng)性縮放定律證據(jù)。與大語(yǔ)言模型類(lèi)似，WAM的縮放規(guī)律取決于模型規(guī)模、數(shù)據(jù)規(guī)模與訓(xùn)練算力三者之間的協(xié)同關(guān)系。研究人員推測(cè)，WAM的縮放趨勢(shì)將與VLA不同，可能呈現(xiàn)出更直接、更貼近動(dòng)作任務(wù)需求的縮放特性。對(duì)這一規(guī)律的深入探究，將是決定WAM能否持續(xù)擴(kuò)展能力邊界的關(guān)鍵。

2) 從真實(shí)場(chǎng)景人類(lèi)數(shù)據(jù)中學(xué)習(xí)

本研究初步驗(yàn)證了利用人類(lèi)第一人稱(chēng)數(shù)據(jù)可提升未見(jiàn)任務(wù)的性能，但實(shí)驗(yàn)仍局限于小規(guī)模實(shí)驗(yàn)室數(shù)據(jù)（僅12分鐘）。近期，大量分布更廣、與機(jī)器人操作相關(guān)的人類(lèi)視頻數(shù)據(jù)集已陸續(xù)公開(kāi)。由于WAM本身就在多樣化互聯(lián)網(wǎng)視頻上預(yù)訓(xùn)練，研究人員認(rèn)為：利用這些大規(guī)模人類(lèi)第一人稱(chēng)視頻，有望讓W(xué)AM比現(xiàn)有VLA更高效地遷移至下游機(jī)器人任務(wù)。這一方向?qū)⒊蔀楹罄m(xù)研究的重點(diǎn)。

3) 更快的推理速度

通過(guò)模型與系統(tǒng)優(yōu)化，DreamZero已在2塊GB200上實(shí)現(xiàn)7Hz頻率的閉環(huán)控制。但與消費(fèi)級(jí)GPU上可運(yùn)行至20Hz以上的現(xiàn)有VLA相比，DreamZero因參數(shù)量大、視頻模型需迭代去噪，計(jì)算開(kāi)銷(xiāo)仍然較高。未來(lái)，若更小的視頻主干模型也能具備強(qiáng)泛化能力，WAM有望在輕量邊緣設(shè)備上作為實(shí)時(shí)System1（快系統(tǒng)）模型部署，拓展其應(yīng)用場(chǎng)景。

4) 長(zhǎng)時(shí)程推理

當(dāng)前DreamZero架構(gòu)主要作為System1模型工作。盡管具備視覺(jué)記憶機(jī)制，但其記憶跨度目前僅為短時(shí)程（約6秒）。要實(shí)現(xiàn)穩(wěn)健的長(zhǎng)時(shí)程任務(wù)執(zhí)行，存在兩條技術(shù)路徑：一是引入System 2（慢系統(tǒng)）規(guī)劃器，構(gòu)建模塊化雙系統(tǒng)架構(gòu)；二是將WAM的上下文窗口大幅延長(zhǎng)，借鑒視頻生成模型中長(zhǎng)時(shí)序一致性的相關(guān)技術(shù)。兩條路徑均具潛力，值得并行探索。

5) 高精度任務(wù)

盡管DreamZero在多樣化的任務(wù)與環(huán)境中展現(xiàn)出廣泛的泛化能力，但在鑰匙插入、精細(xì)裝配等亞厘米級(jí)精度要求的任務(wù)上，它仍帶有行為克隆方法的固有局限。當(dāng)前的多樣化預(yù)訓(xùn)練策略以任務(wù)廣度為優(yōu)先，可能導(dǎo)致對(duì)高精度操作所需的密集演示數(shù)據(jù)覆蓋不足。值得關(guān)注的是，近期研究表明：世界動(dòng)作模型在毫米級(jí)公差的高精度操作任務(wù)中反而具備潛在優(yōu)勢(shì)。這一積極信號(hào)提示，泛化廣度與精細(xì)靈巧之間的權(quán)衡，有望通過(guò)進(jìn)一步研究實(shí)現(xiàn)調(diào)和。

6) 面向WAM的機(jī)器人具身設(shè)計(jì)

研究人員提出，未來(lái)WAM的發(fā)展將對(duì)機(jī)器人具身形態(tài)提出新的設(shè)計(jì)要求，其中兩大核心因素值得關(guān)注：

自由度：

高自由度機(jī)器人需要更多自由探索數(shù)據(jù)，才能學(xué)習(xí)精準(zhǔn)的隱式逆動(dòng)力學(xué)模型——因?yàn)閺奈磥?lái)視覺(jué)狀態(tài)到電機(jī)控制指令的映射，會(huì)隨運(yùn)動(dòng)學(xué)復(fù)雜度呈組合式增長(zhǎng)。如何量化隱式逆動(dòng)力學(xué)模型的精度，仍是待解的行業(yè)難題。

擬人度：

與人類(lèi)形態(tài)更接近的具身結(jié)構(gòu)（如具備靈巧操作能力的人形機(jī)器人），盡管自由度更高，但其遷移效率反而更優(yōu)。原因在于，這類(lèi)機(jī)器人能夠同時(shí)復(fù)用兩大資源：視頻預(yù)訓(xùn)練中習(xí)得的運(yùn)動(dòng)先驗(yàn)，以及海量人類(lèi)第一人稱(chēng)視角視頻數(shù)據(jù)。這兩大因素的影響方向看似相悖，但類(lèi)人具身結(jié)構(gòu)最終可能占據(jù)優(yōu)勢(shì)——它以犧牲一定的機(jī)械簡(jiǎn)潔性為代價(jià)，換取了訪(fǎng)問(wèn)全網(wǎng)規(guī)模人類(lèi)數(shù)據(jù)的資格。而這些數(shù)據(jù)，正是下一代機(jī)器人基礎(chǔ)模型的核心燃料。

原文標(biāo)題 : DreamZero：從語(yǔ)言理解到世界建�！呱碇悄艿腤AM新范式

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷(xiāo)售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷(xiāo)售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專(zhuān)家廣東省/江門(mén)市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

精品日韩国产无码一区二区国产一级毛片午夜福亚洲av永久无无码精品一区二区国产男女猛烈无遮掩免费视频