端到端自動(dòng)駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。
2025年的CVPR自動(dòng)駕駛Workshop上,香港大學(xué)的Li Hongyang做了一篇名為《自動(dòng)駕駛端到端方法:現(xiàn)狀與展望》的開(kāi)場(chǎng)演講。
演講給了端到端一個(gè)定義,并介紹了端到端的前世今生,以及挑戰(zhàn),最后提出“世界引擎”(World Engine)的概念、最新進(jìn)展(包括三個(gè)具體工作)、以及該領(lǐng)域的一些關(guān)鍵挑戰(zhàn)。
本文根據(jù)Li Hongyang的演講內(nèi)容,結(jié)合自動(dòng)駕駛開(kāi)發(fā)應(yīng)用的現(xiàn)狀,給一些概念性的總結(jié),結(jié)合他說(shuō)的端到端1.5時(shí)代的兩個(gè)分支,大膽的給當(dāng)前VLA和WM下一個(gè)概念結(jié)論,最后回歸到Li Hongyang的主旨,端到端都需要一個(gè)世界引擎。
端到端自動(dòng)駕駛的定義
端到端自動(dòng)駕駛的定義是“學(xué)習(xí)一個(gè)單一模型,直接將原始傳感器輸入映射到駕駛場(chǎng)景并輸出控制指令”。它用一個(gè)統(tǒng)一的函數(shù)取代了傳統(tǒng)的模塊化管道。
這里的“函數(shù)”意味著給定觀察(例如圖像、點(diǎn)云或車輛信息)或目標(biāo),模型直接輸出控制指令(例如轉(zhuǎn)向、剎車或油門)。
訓(xùn)練流程非常簡(jiǎn)單,可以是通過(guò)大量標(biāo)注的SL監(jiān)督學(xué)習(xí)、IL模仿學(xué)習(xí),或者通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)的 RL強(qiáng)化學(xué)習(xí)。
所以,其實(shí)端到端是自動(dòng)駕駛算法里面最廣的一個(gè)概念,不管現(xiàn)在的VLA還是世界模型都是屬于端到端的一種。
端到端自動(dòng)駕駛的發(fā)展路線圖
從20多年前簡(jiǎn)單的黑白圖像輸入開(kāi)始。
多年來(lái),出現(xiàn)了許多方法,可以分為條件模仿學(xué)習(xí)、泛化、Andrew Gigard團(tuán)隊(duì)的可解釋性網(wǎng)絡(luò)(使用多模態(tài)),以及PPJL、Soft ACT、ACO等在預(yù)訓(xùn)練階段的工作。
直到最近,出現(xiàn)了一些明確設(shè)計(jì)模塊的顯式方法,例如包含目標(biāo)跟蹤、地圖和運(yùn)動(dòng)規(guī)劃的模塊,這就是模塊化端到端規(guī)劃與基礎(chǔ)模型時(shí)代
而現(xiàn)在我們正處于“1.5代”的端到端自動(dòng)駕駛的尾巴上。之所以稱為“1.5代”,我們已進(jìn)入基礎(chǔ)模型(Foundation Models)時(shí)代,正在解決一些長(zhǎng)尾問(wèn)題(corner cases)。1.5端到端時(shí)代,我們有兩個(gè)分支:
一個(gè)涉及擴(kuò)散(Diffusion)或使用擴(kuò)散管道以及世界模型的分支?梢钥吹较馜rive Dreamer、Cosmos Predict One和導(dǎo)航世界模型。Gaia 2也是一個(gè)視頻生成模型,旨在實(shí)現(xiàn)更安全的輔助和自動(dòng)化駕駛。這些模型利用多視圖圖像和不同的動(dòng)作來(lái)預(yù)測(cè)不同類型的視頻,以生成真實(shí)感和多樣性。這個(gè)分枝可以總結(jié)為world model世界模型分枝。
另外一條分枝是基于大型語(yǔ)言模型(LLMs)的應(yīng)用。例如,Java LM提出了一種“草圖維基”方式,以更好地理解駕駛場(chǎng)景。還有Lingo Tool和早期的工作Job VRM,后者被認(rèn)為是自動(dòng)駕駛雙系統(tǒng)的一個(gè)非常早期工作,它利用了基礎(chǔ)模型更高的準(zhǔn)確性,但缺點(diǎn)是延遲較高。因此,較小的模型可以預(yù)測(cè)大多數(shù)情況,并與基礎(chǔ)模型協(xié)同工作。這個(gè)可以認(rèn)為為現(xiàn)在VLM/VLA分支。
有了這兩種方法論之后,Li Hongyang認(rèn)為端到端開(kāi)始步入第二代,目前,自動(dòng)駕駛研究已進(jìn)入第二階段,需要處理大量的生產(chǎn)問(wèn)題和工程工作。
有了端到端的架構(gòu),接下來(lái)就是大量的數(shù)據(jù)去訓(xùn)模型,下圖為一個(gè)典型的訓(xùn)練和部署管道,包括數(shù)據(jù)收集(通常由專家駕駛)、訓(xùn)練(在固定的日志和回放數(shù)據(jù)上),以及評(píng)估和從推理中獲得反饋,然后收集更多接管和不良數(shù)據(jù)。
真實(shí)世界部署的挑戰(zhàn)
我們能否收集所有情況或極端情況,并最終將其真正轉(zhuǎn)化為L(zhǎng)4或L5級(jí)別的產(chǎn)品。
Li Hongyang引用了一個(gè)他非常喜歡的網(wǎng)站——特斯拉FSD追蹤器,該網(wǎng)站主要收集北美城市中大量的客戶數(shù)據(jù)。網(wǎng)站的實(shí)時(shí)圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數(shù)”(MPI)指標(biāo)的年度變化,可以看到MPI在增加,這是一個(gè)非常有前景的積極信號(hào),說(shuō)明數(shù)據(jù)量的增加確實(shí)可以讓端到端大模型無(wú)限接近自動(dòng)駕駛。
但是,問(wèn)題來(lái)了
看下圖右側(cè),X軸表示正常駕駛和安全關(guān)鍵或?yàn)l臨事故事件,隨著駕駛里程累計(jì),就可能會(huì)發(fā)生事故。
Y軸有兩個(gè),黑色曲線表示每英里發(fā)生危險(xiǎn)情況的概率,紅色曲線表示部署成本。隨著大多數(shù)感知問(wèn)題已經(jīng)解決,遇到挑戰(zhàn)性案例的概率變得非常罕見(jiàn)。但此時(shí),部署成本變得非常昂貴,因?yàn)樾枰嫶蟮能囮?duì)來(lái)收集所有危險(xiǎn)案例。
剩余20%的長(zhǎng)尾問(wèn)題需要海量數(shù)據(jù)。原因是,有價(jià)值的極端情況變得越來(lái)越稀有,而收集危險(xiǎn)駕駛數(shù)據(jù)可能會(huì)危及生命。
于是 Li Hongyang提出了一個(gè)“世界引擎”(World Engine)概念,可以解決這些挑戰(zhàn)。
其核心思想是從人類專家駕駛中學(xué)習(xí)。該策略仍是任意的端到端規(guī)劃算法,例如UniAD或V-AD等。通過(guò)與環(huán)境交互(可以稱之為世界模型或與環(huán)境互動(dòng)),給定當(dāng)前的提示或動(dòng)作(例如右轉(zhuǎn)),我們希望從失敗中學(xué)習(xí),并改進(jìn)當(dāng)前的端到端規(guī)劃器,使其適應(yīng)生產(chǎn)環(huán)境。關(guān)鍵問(wèn)題是如何生成這些有價(jià)值的極端情況。這主要是由兩部分組成:
極端情況生成(從原始數(shù)據(jù)中的源場(chǎng)景生成安全關(guān)鍵場(chǎng)景),這大大節(jié)省了沒(méi)有龐大車隊(duì)時(shí)的成本。
這在行為層面上對(duì)模型進(jìn)行建模,基本意味著給定軌跡,之后要對(duì)環(huán)境與自車之間的行為進(jìn)行建模。然后,一旦有了軌跡,就需要渲染這些內(nèi)容,這就是所謂的生成或渲染視頻,即傳感器仿真。
有了這么一個(gè)數(shù)據(jù)引擎(Data Engine),就可以來(lái)生成大量的極端情況場(chǎng)景,用于訓(xùn)練。
Li Hongyang提出還有一個(gè)算法引擎(Algorithm Engine),它沒(méi)有在這里繪制,因?yàn)樗栽陂_(kāi)發(fā)中。
有了數(shù)據(jù)引擎和算法引擎,他們共同構(gòu)成了“世界引擎”的整個(gè)管道,之后可以用于改進(jìn)和訓(xùn)練任意的端到端算法,幫助自動(dòng)駕駛達(dá)成。
寫(xiě)在最后
其實(shí)最近,VLA和WM世界模型打的火熱,說(shuō)實(shí)話如果從詞的概念上來(lái)講,WM這個(gè)瓶子更大,能裝的概念更多,但也意味著更能糊弄。
Jack認(rèn)為 VLA應(yīng)該是目前比較切合實(shí)際和看得到路徑的方法,WM應(yīng)該是終極目標(biāo),但目前國(guó)內(nèi)提這個(gè)概念的公司多多少少都是想占領(lǐng)詞匯和用戶心智高地,其實(shí)瓶子里面裝的是啥,多半夸張。
參考文章以及圖片
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-
原文標(biāo)題 : 端到端自動(dòng)駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 人形機(jī)器人,正狂奔在批量交付的曠野
- 4 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 5 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 6 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 2025年8月人工智能投融資觀察
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)