两个小学生开车有疼痛声视频,国产真实迷奷视频免费,国产真实迷奷视频免费

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

端到端自動(dòng)駕駛的前世今生：不管VLA還是WM世界模型,都需要世界引擎。

2025-09-10 14:00

vehicle公眾號(hào)

2025年的CVPR自動(dòng)駕駛Workshop上，香港大學(xué)的Li Hongyang做了一篇名為《自動(dòng)駕駛端到端方法：現(xiàn)狀與展望》的開(kāi)場(chǎng)演講。

演講給了端到端一個(gè)定義，并介紹了端到端的前世今生，以及挑戰(zhàn)，最后提出“世界引擎”（World Engine）的概念、最新進(jìn)展（包括三個(gè)具體工作）、以及該領(lǐng)域的一些關(guān)鍵挑戰(zhàn)。

本文根據(jù)Li Hongyang的演講內(nèi)容，結(jié)合自動(dòng)駕駛開(kāi)發(fā)應(yīng)用的現(xiàn)狀，給一些概念性的總結(jié)，結(jié)合他說(shuō)的端到端1.5時(shí)代的兩個(gè)分支，大膽的給當(dāng)前VLA和WM下一個(gè)概念結(jié)論，最后回歸到Li Hongyang的主旨，端到端都需要一個(gè)世界引擎。

端到端自動(dòng)駕駛的定義

端到端自動(dòng)駕駛的定義是“學(xué)習(xí)一個(gè)單一模型，直接將原始傳感器輸入映射到駕駛場(chǎng)景并輸出控制指令”。它用一個(gè)統(tǒng)一的函數(shù)取代了傳統(tǒng)的模塊化管道。

這里的“函數(shù)”意味著給定觀察（例如圖像、點(diǎn)云或車輛信息）或目標(biāo)，模型直接輸出控制指令（例如轉(zhuǎn)向、剎車或油門）。

訓(xùn)練流程非常簡(jiǎn)單，可以是通過(guò)大量標(biāo)注的SL監(jiān)督學(xué)習(xí)、IL模仿學(xué)習(xí)，或者通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)的 RL強(qiáng)化學(xué)習(xí)。

所以，其實(shí)端到端是自動(dòng)駕駛算法里面最廣的一個(gè)概念，不管現(xiàn)在的VLA還是世界模型都是屬于端到端的一種。

端到端自動(dòng)駕駛的發(fā)展路線圖

從20多年前簡(jiǎn)單的黑白圖像輸入開(kāi)始。

多年來(lái)，出現(xiàn)了許多方法，可以分為條件模仿學(xué)習(xí)、泛化、Andrew Gigard團(tuán)隊(duì)的可解釋性網(wǎng)絡(luò)（使用多模態(tài)），以及PPJL、Soft ACT、ACO等在預(yù)訓(xùn)練階段的工作。

直到最近，出現(xiàn)了一些明確設(shè)計(jì)模塊的顯式方法，例如包含目標(biāo)跟蹤、地圖和運(yùn)動(dòng)規(guī)劃的模塊，這就是模塊化端到端規(guī)劃與基礎(chǔ)模型時(shí)代

而現(xiàn)在我們正處于“1.5代”的端到端自動(dòng)駕駛的尾巴上。之所以稱為“1.5代”，我們已進(jìn)入基礎(chǔ)模型（Foundation Models）時(shí)代，正在解決一些長(zhǎng)尾問(wèn)題（corner cases）。1.5端到端時(shí)代，我們有兩個(gè)分支：

一個(gè)涉及擴(kuò)散（Diffusion）或使用擴(kuò)散管道以及世界模型的分支。可以看到像Drive Dreamer、Cosmos Predict One和導(dǎo)航世界模型。Gaia 2也是一個(gè)視頻生成模型，旨在實(shí)現(xiàn)更安全的輔助和自動(dòng)化駕駛。這些模型利用多視圖圖像和不同的動(dòng)作來(lái)預(yù)測(cè)不同類型的視頻，以生成真實(shí)感和多樣性。這個(gè)分枝可以總結(jié)為world model世界模型分枝。

另外一條分枝是基于大型語(yǔ)言模型（LLMs）的應(yīng)用。例如，Java LM提出了一種“草圖維基”方式，以更好地理解駕駛場(chǎng)景。還有Lingo Tool和早期的工作Job VRM，后者被認(rèn)為是自動(dòng)駕駛雙系統(tǒng)的一個(gè)非常早期工作，它利用了基礎(chǔ)模型更高的準(zhǔn)確性，但缺點(diǎn)是延遲較高。因此，較小的模型可以預(yù)測(cè)大多數(shù)情況，并與基礎(chǔ)模型協(xié)同工作。這個(gè)可以認(rèn)為為現(xiàn)在VLM/VLA分支。

有了這兩種方法論之后，Li Hongyang認(rèn)為端到端開(kāi)始步入第二代，目前，自動(dòng)駕駛研究已進(jìn)入第二階段，需要處理大量的生產(chǎn)問(wèn)題和工程工作。

有了端到端的架構(gòu)，接下來(lái)就是大量的數(shù)據(jù)去訓(xùn)模型，下圖為一個(gè)典型的訓(xùn)練和部署管道，包括數(shù)據(jù)收集（通常由專家駕駛）、訓(xùn)練（在固定的日志和回放數(shù)據(jù)上），以及評(píng)估和從推理中獲得反饋，然后收集更多接管和不良數(shù)據(jù)。

真實(shí)世界部署的挑戰(zhàn)

我們能否收集所有情況或極端情況，并最終將其真正轉(zhuǎn)化為L(zhǎng)4或L5級(jí)別的產(chǎn)品。

Li Hongyang引用了一個(gè)他非常喜歡的網(wǎng)站——特斯拉FSD追蹤器，該網(wǎng)站主要收集北美城市中大量的客戶數(shù)據(jù)。網(wǎng)站的實(shí)時(shí)圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數(shù)”（MPI）指標(biāo)的年度變化，可以看到MPI在增加，這是一個(gè)非常有前景的積極信號(hào)，說(shuō)明數(shù)據(jù)量的增加確實(shí)可以讓端到端大模型無(wú)限接近自動(dòng)駕駛。

但是，問(wèn)題來(lái)了

看下圖右側(cè)，X軸表示正常駕駛和安全關(guān)鍵或?yàn)l臨事故事件，隨著駕駛里程累計(jì)，就可能會(huì)發(fā)生事故。

Y軸有兩個(gè)，黑色曲線表示每英里發(fā)生危險(xiǎn)情況的概率，紅色曲線表示部署成本。隨著大多數(shù)感知問(wèn)題已經(jīng)解決，遇到挑戰(zhàn)性案例的概率變得非常罕見(jiàn)。但此時(shí)，部署成本變得非常昂貴，因?yàn)樾枰嫶蟮能囮?duì)來(lái)收集所有危險(xiǎn)案例。

剩余20%的長(zhǎng)尾問(wèn)題需要海量數(shù)據(jù)。原因是，有價(jià)值的極端情況變得越來(lái)越稀有，而收集危險(xiǎn)駕駛數(shù)據(jù)可能會(huì)危及生命。

于是 Li Hongyang提出了一個(gè)“世界引擎”（World Engine）概念，可以解決這些挑戰(zhàn)。

其核心思想是從人類專家駕駛中學(xué)習(xí)。該策略仍是任意的端到端規(guī)劃算法，例如UniAD或V-AD等。通過(guò)與環(huán)境交互（可以稱之為世界模型或與環(huán)境互動(dòng)），給定當(dāng)前的提示或動(dòng)作（例如右轉(zhuǎn)），我們希望從失敗中學(xué)習(xí)，并改進(jìn)當(dāng)前的端到端規(guī)劃器，使其適應(yīng)生產(chǎn)環(huán)境。關(guān)鍵問(wèn)題是如何生成這些有價(jià)值的極端情況。這主要是由兩部分組成：

極端情況生成（從原始數(shù)據(jù)中的源場(chǎng)景生成安全關(guān)鍵場(chǎng)景），這大大節(jié)省了沒(méi)有龐大車隊(duì)時(shí)的成本。

這在行為層面上對(duì)模型進(jìn)行建模，基本意味著給定軌跡，之后要對(duì)環(huán)境與自車之間的行為進(jìn)行建模。然后，一旦有了軌跡，就需要渲染這些內(nèi)容，這就是所謂的生成或渲染視頻，即傳感器仿真。

有了這么一個(gè)數(shù)據(jù)引擎（Data Engine），就可以來(lái)生成大量的極端情況場(chǎng)景，用于訓(xùn)練。

Li Hongyang提出還有一個(gè)算法引擎（Algorithm Engine），它沒(méi)有在這里繪制，因?yàn)樗栽陂_(kāi)發(fā)中。

有了數(shù)據(jù)引擎和算法引擎，他們共同構(gòu)成了“世界引擎”的整個(gè)管道，之后可以用于改進(jìn)和訓(xùn)練任意的端到端算法，幫助自動(dòng)駕駛達(dá)成。

寫(xiě)在最后

其實(shí)最近，VLA和WM世界模型打的火熱，說(shuō)實(shí)話如果從詞的概念上來(lái)講，WM這個(gè)瓶子更大，能裝的概念更多，但也意味著更能糊弄。

Jack認(rèn)為 VLA應(yīng)該是目前比較切合實(shí)際和看得到路徑的方法，WM應(yīng)該是終極目標(biāo)，但目前國(guó)內(nèi)提這個(gè)概念的公司多多少少都是想占領(lǐng)詞匯和用戶心智高地，其實(shí)瓶子里面裝的是啥,多半夸張。

參考文章以及圖片

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

原文標(biāo)題 : 端到端自動(dòng)駕駛的前世今生：不管VLA還是WM世界模型,都需要世界引擎。

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

国产精品第1页我写作业学长玩我下面视频亚洲欧美日韩国产高清久久99国产精品一区二区

<tbody id="ct8ye"><listing id="ct8ye"></listing></tbody>

<label id="ct8ye"><xmp id="ct8ye">

<tbody id="ct8ye"><listing id="ct8ye"></listing></tbody>