訂閱
糾錯(cuò)
加入自媒體

端到端自動(dòng)駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

2025年的CVPR自動(dòng)駕駛Workshop上,香港大學(xué)的Li Hongyang做了一篇名為《自動(dòng)駕駛端到端方法:現(xiàn)狀與展望》的開(kāi)場(chǎng)演講。

演講給了端到端一個(gè)定義,并介紹了端到端的前世今生,以及挑戰(zhàn),最后提出“世界引擎”(World Engine)的概念、最新進(jìn)展(包括三個(gè)具體工作)、以及該領(lǐng)域的一些關(guān)鍵挑戰(zhàn)。

本文根據(jù)Li Hongyang的演講內(nèi)容,結(jié)合自動(dòng)駕駛開(kāi)發(fā)應(yīng)用的現(xiàn)狀,給一些概念性的總結(jié),結(jié)合他說(shuō)的端到端1.5時(shí)代的兩個(gè)分支,大膽的給當(dāng)前VLA和WM下一個(gè)概念結(jié)論,最后回歸到Li Hongyang的主旨,端到端都需要一個(gè)世界引擎。

端到端自動(dòng)駕駛的定義

端到端自動(dòng)駕駛的定義是“學(xué)習(xí)一個(gè)單一模型,直接將原始傳感器輸入映射到駕駛場(chǎng)景并輸出控制指令”。它用一個(gè)統(tǒng)一的函數(shù)取代了傳統(tǒng)的模塊化管道。

這里的“函數(shù)”意味著給定觀察(例如圖像、點(diǎn)云或車輛信息)或目標(biāo),模型直接輸出控制指令(例如轉(zhuǎn)向、剎車或油門)。

訓(xùn)練流程非常簡(jiǎn)單,可以是通過(guò)大量標(biāo)注的SL監(jiān)督學(xué)習(xí)、IL模仿學(xué)習(xí),或者通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)的 RL強(qiáng)化學(xué)習(xí)。

所以,其實(shí)端到端是自動(dòng)駕駛算法里面最廣的一個(gè)概念,不管現(xiàn)在的VLA還是世界模型都是屬于端到端的一種。

端到端自動(dòng)駕駛的發(fā)展路線圖

從20多年前簡(jiǎn)單的黑白圖像輸入開(kāi)始。

多年來(lái),出現(xiàn)了許多方法,可以分為條件模仿學(xué)習(xí)、泛化、Andrew Gigard團(tuán)隊(duì)的可解釋性網(wǎng)絡(luò)(使用多模態(tài)),以及PPJL、Soft ACT、ACO等在預(yù)訓(xùn)練階段的工作。

直到最近,出現(xiàn)了一些明確設(shè)計(jì)模塊的顯式方法,例如包含目標(biāo)跟蹤、地圖和運(yùn)動(dòng)規(guī)劃的模塊,這就是模塊化端到端規(guī)劃與基礎(chǔ)模型時(shí)代

而現(xiàn)在我們正處于“1.5代”的端到端自動(dòng)駕駛的尾巴上。之所以稱為“1.5代”,我們已進(jìn)入基礎(chǔ)模型(Foundation Models)時(shí)代,正在解決一些長(zhǎng)尾問(wèn)題(corner cases)。1.5端到端時(shí)代,我們有兩個(gè)分支:

一個(gè)涉及擴(kuò)散(Diffusion)或使用擴(kuò)散管道以及世界模型的分支?梢钥吹较馜rive Dreamer、Cosmos Predict One和導(dǎo)航世界模型。Gaia 2也是一個(gè)視頻生成模型,旨在實(shí)現(xiàn)更安全的輔助和自動(dòng)化駕駛。這些模型利用多視圖圖像和不同的動(dòng)作來(lái)預(yù)測(cè)不同類型的視頻,以生成真實(shí)感和多樣性。這個(gè)分枝可以總結(jié)為world model世界模型分枝。

另外一條分枝是基于大型語(yǔ)言模型(LLMs)的應(yīng)用。例如,Java LM提出了一種“草圖維基”方式,以更好地理解駕駛場(chǎng)景。還有Lingo Tool和早期的工作Job VRM,后者被認(rèn)為是自動(dòng)駕駛雙系統(tǒng)的一個(gè)非常早期工作,它利用了基礎(chǔ)模型更高的準(zhǔn)確性,但缺點(diǎn)是延遲較高。因此,較小的模型可以預(yù)測(cè)大多數(shù)情況,并與基礎(chǔ)模型協(xié)同工作。這個(gè)可以認(rèn)為為現(xiàn)在VLM/VLA分支。

有了這兩種方法論之后,Li Hongyang認(rèn)為端到端開(kāi)始步入第二代,目前,自動(dòng)駕駛研究已進(jìn)入第二階段,需要處理大量的生產(chǎn)問(wèn)題和工程工作。

有了端到端的架構(gòu),接下來(lái)就是大量的數(shù)據(jù)去訓(xùn)模型,下圖為一個(gè)典型的訓(xùn)練和部署管道,包括數(shù)據(jù)收集(通常由專家駕駛)、訓(xùn)練(在固定的日志和回放數(shù)據(jù)上),以及評(píng)估和從推理中獲得反饋,然后收集更多接管和不良數(shù)據(jù)。

真實(shí)世界部署的挑戰(zhàn)

我們能否收集所有情況或極端情況,并最終將其真正轉(zhuǎn)化為L(zhǎng)4或L5級(jí)別的產(chǎn)品。

Li Hongyang引用了一個(gè)他非常喜歡的網(wǎng)站——特斯拉FSD追蹤器,該網(wǎng)站主要收集北美城市中大量的客戶數(shù)據(jù)。網(wǎng)站的實(shí)時(shí)圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數(shù)”(MPI)指標(biāo)的年度變化,可以看到MPI在增加,這是一個(gè)非常有前景的積極信號(hào),說(shuō)明數(shù)據(jù)量的增加確實(shí)可以讓端到端大模型無(wú)限接近自動(dòng)駕駛。

但是,問(wèn)題來(lái)了

看下圖右側(cè),X軸表示正常駕駛和安全關(guān)鍵或?yàn)l臨事故事件,隨著駕駛里程累計(jì),就可能會(huì)發(fā)生事故。

Y軸有兩個(gè),黑色曲線表示每英里發(fā)生危險(xiǎn)情況的概率,紅色曲線表示部署成本。隨著大多數(shù)感知問(wèn)題已經(jīng)解決,遇到挑戰(zhàn)性案例的概率變得非常罕見(jiàn)。但此時(shí),部署成本變得非常昂貴,因?yàn)樾枰嫶蟮能囮?duì)來(lái)收集所有危險(xiǎn)案例。

剩余20%的長(zhǎng)尾問(wèn)題需要海量數(shù)據(jù)。原因是,有價(jià)值的極端情況變得越來(lái)越稀有,而收集危險(xiǎn)駕駛數(shù)據(jù)可能會(huì)危及生命。

于是 Li Hongyang提出了一個(gè)“世界引擎”(World Engine)概念,可以解決這些挑戰(zhàn)。

其核心思想是從人類專家駕駛中學(xué)習(xí)。該策略仍是任意的端到端規(guī)劃算法,例如UniAD或V-AD等。通過(guò)與環(huán)境交互(可以稱之為世界模型或與環(huán)境互動(dòng)),給定當(dāng)前的提示或動(dòng)作(例如右轉(zhuǎn)),我們希望從失敗中學(xué)習(xí),并改進(jìn)當(dāng)前的端到端規(guī)劃器,使其適應(yīng)生產(chǎn)環(huán)境。關(guān)鍵問(wèn)題是如何生成這些有價(jià)值的極端情況。這主要是由兩部分組成:

極端情況生成(從原始數(shù)據(jù)中的源場(chǎng)景生成安全關(guān)鍵場(chǎng)景),這大大節(jié)省了沒(méi)有龐大車隊(duì)時(shí)的成本。

這在行為層面上對(duì)模型進(jìn)行建模,基本意味著給定軌跡,之后要對(duì)環(huán)境與自車之間的行為進(jìn)行建模。然后,一旦有了軌跡,就需要渲染這些內(nèi)容,這就是所謂的生成或渲染視頻,即傳感器仿真。

有了這么一個(gè)數(shù)據(jù)引擎(Data Engine),就可以來(lái)生成大量的極端情況場(chǎng)景,用于訓(xùn)練。

Li Hongyang提出還有一個(gè)算法引擎(Algorithm Engine),它沒(méi)有在這里繪制,因?yàn)樗栽陂_(kāi)發(fā)中。

有了數(shù)據(jù)引擎和算法引擎,他們共同構(gòu)成了“世界引擎”的整個(gè)管道,之后可以用于改進(jìn)和訓(xùn)練任意的端到端算法,幫助自動(dòng)駕駛達(dá)成。

寫(xiě)在最后

其實(shí)最近,VLA和WM世界模型打的火熱,說(shuō)實(shí)話如果從詞的概念上來(lái)講,WM這個(gè)瓶子更大,能裝的概念更多,但也意味著更能糊弄。

Jack認(rèn)為 VLA應(yīng)該是目前比較切合實(shí)際和看得到路徑的方法,WM應(yīng)該是終極目標(biāo),但目前國(guó)內(nèi)提這個(gè)概念的公司多多少少都是想占領(lǐng)詞匯和用戶心智高地,其實(shí)瓶子里面裝的是啥,多半夸張。

參考文章以及圖片

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 端到端自動(dòng)駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)