“絕影開悟”世界模型 :從輔助駕駛走向具身智能的工程進(jìn)階
芝能科技出品
在WAIC 2025上,商湯絕影推出了升級版的“絕影開悟”世界模型,并展示了其在自動駕駛數(shù)據(jù)生成、仿真訓(xùn)練及具身智能交互方面的多項能力。
雖然整體展示內(nèi)容覆蓋面廣,系統(tǒng)集成度較高,但在表象之下,我們更應(yīng)關(guān)注其核心建模能力是否經(jīng)得起推敲,以及其產(chǎn)品平臺在高階交互和實際落地過程中的適用性與邊界,我們更關(guān)心的是從技術(shù)角度分析“絕影開悟”在輔助駕駛和具身智能領(lǐng)域的核心機制與潛力。
01 輔助駕駛方法革新:效率與控制力的雙重權(quán)衡
“絕影開悟”最大的技術(shù)亮點在于它提供了一種相對高效、可控的合成數(shù)據(jù)生成方式,用于緩解當(dāng)前輔助駕駛領(lǐng)域?qū)φ鎸嵅杉瘮?shù)據(jù)的重依賴。
通過將大模型能力引入數(shù)據(jù)生成流程,它試圖解決傳統(tǒng)仿真工具中長期存在的幾個問題:缺乏多樣性、場景難以定制、生成效率低。從物理建模角度看,“絕影開悟”展示出對真實駕駛環(huán)境的良好抽象能力。
系統(tǒng)不僅能在視覺維度上逼近真實采集畫面,還通過多模態(tài)控制對場景邏輯關(guān)系做出可接受的建模(如動態(tài)交通行為、光照與視角變化的響應(yīng))。
以當(dāng)前的A100 GPU生成速度估算,其效率確實優(yōu)于多數(shù)手動采集方式,尤其在高頻次需求的訓(xùn)練周期中具有現(xiàn)實價值。
數(shù)據(jù)“真實度”依舊受限于訓(xùn)練模型的語義深度和物理因果邏輯建構(gòu)能力。在復(fù)雜邊緣場景中,如交通事故、非標(biāo)道路結(jié)構(gòu)、夜間突發(fā)事件等,是否具備足夠泛化能力仍需通過大規(guī)模實測驗證。
平臺支持提示詞生成與圖像點擊生成的功能雖便于產(chǎn)品化,但也可能造成使用者對“真實可用性”的認(rèn)知誤差。簡化交互和增強定制性的同時,可能弱化開發(fā)者對底層模擬邏輯準(zhǔn)確性的關(guān)注。
因此,“絕影開悟”的適用邊界更適合作為算法早期訓(xùn)練和策略預(yù)驗證工具,而非作為替代實車驗證的終極手段。
商湯基于該模型開發(fā)的數(shù)據(jù)集“WorldSim-Drive”,在數(shù)據(jù)量級與標(biāo)簽種類上的覆蓋相對完備,達(dá)到了百萬級片段的規(guī)模,并標(biāo)明了多視角、光照、交通標(biāo)識等變量標(biāo)簽,有助于訓(xùn)練階段算法的魯棒性提升。
以目前情況來看,它更像是一個適用于快速模型預(yù)熱和泛化能力打底的“數(shù)據(jù)引擎”。
“絕影開悟”在輔助駕駛場景中的價值不在于徹底替代真實測試,而在于構(gòu)建一套低成本、可控、高覆蓋率的訓(xùn)練數(shù)據(jù)系統(tǒng),補足現(xiàn)有測試體系中的“長尾場景”缺口。真正的挑戰(zhàn)仍在于模型在未見過的真實復(fù)雜交通行為中的泛化能力。
02 邁向具身智能的構(gòu)型實驗:從環(huán)境建模走向交互邏輯生成
如果說輔助駕駛的數(shù)據(jù)生成屬于靜態(tài)空間與單維交互建模,那么具身智能對世界模型的要求則更加復(fù)雜,涉及高頻率的實時交互、因果鏈構(gòu)建、多視角對齊與物理反饋仿真。
“絕影開悟”試圖從三維空間走向四維時空構(gòu)建,打造一個具備實時響應(yīng)能力的4D訓(xùn)練環(huán)境。其最具技術(shù)含量的部分,是將3DGS(即三維高保真重建)與語義建模融合,形成一個支持1km²級別的實時仿真環(huán)境,并且允許策略模型與模擬環(huán)境實時交互。
這種1:1閉環(huán)測試機制,對于強化學(xué)習(xí)等交互式學(xué)習(xí)方法來說非常關(guān)鍵,它意味著可以在虛擬空間中完成大量策略驗證和安全性評估,減少對真實物理實驗的依賴。
系統(tǒng)可以生成具備第一視角(即感知視角)與第三視角(觀察者視角)的同步數(shù)據(jù),并保持它們的時空一致性。
過去在機器人訓(xùn)練中,往往只能獲得單一視角數(shù)據(jù),使得訓(xùn)練模型難以兼顧空間規(guī)劃與動作細(xì)節(jié)。
雙視角數(shù)據(jù)不僅提升了訓(xùn)練反饋的豐富度,也在一定程度上提供了具身智能體“自我評估”的能力。具身智能的復(fù)雜性遠(yuǎn)非高精度建模與視角對齊即可解決。
在實際工程部署中,問題往往出現(xiàn)在動作決策鏈條的尾部——即如何讓模擬動作在現(xiàn)實硬件上落地。即使世界模型在仿真中生成了可行的策略路徑,也很難保證機器人在真實環(huán)境中執(zhí)行時具備同等的魯棒性與安全性。Sim2Real的問題仍然存在,只是部分被緩解。
商湯提出了構(gòu)建具身3D資產(chǎn)庫的路徑,涵蓋多種空間、對象與任務(wù)(如廚房、辦公桌、機械臂作業(yè)等),為世界模型提供素材支撐。這種資產(chǎn)級的系統(tǒng)組織形式,在構(gòu)建任務(wù)圖譜與動作路徑預(yù)測中具有較大優(yōu)勢。
結(jié)合高保真數(shù)據(jù)生成與動作軌跡抽象,能構(gòu)建更通用的交互行為基礎(chǔ)。
當(dāng)前展示內(nèi)容仍偏向任務(wù)“可生成”與“可預(yù)演”,在“策略推理”“動作冗余壓縮”“任務(wù)錯誤容忍”等實際工程場景中,尚未顯示足夠系統(tǒng)化的能力。
因此,更合理的看法是,“絕影開悟”為具身智能提供了訓(xùn)練前期的環(huán)境層支撐,但要構(gòu)建完整的交互模型體系,還需補足認(rèn)知層建模與反饋處理的中層橋梁。
“絕影開悟”在具身智能中的應(yīng)用展示了從空間建模走向交互反饋的技術(shù)意圖,4D空間構(gòu)建與多視角數(shù)據(jù)生成的能力較具前瞻性,但其作為具身訓(xùn)練的“全流程解決方案”仍不完整。
未來的發(fā)展關(guān)鍵在于構(gòu)建具備可遷移性與實際推理能力的策略模型層,而不只是環(huán)境層的構(gòu)建。
小結(jié)
在Physical AI的技術(shù)熱潮中,“世界模型”這個概念正被不斷擴大與泛化,從工程角度看,其價值仍應(yīng)回歸到一個根本問題:是否真正幫助智能體“理解”了所處的世界,并能夠以可驗證的方式做出反應(yīng)。
從認(rèn)知世界,到在世界中行動,AI真正的挑戰(zhàn)不是生成一個世界,而是理解世界背后的規(guī)則與變量,并在不確定中作出正確決策。這需要的不只是生成力,更是推理力與適應(yīng)力。
原文標(biāo)題 : “絕影開悟”世界模型 :從輔助駕駛走向具身智能的工程進(jìn)階

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進(jìn)入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題