Waymo自動駕駛最新探索實(shí)踐:世界模型、長尾問題、最重要的東西
輔助駕駛/自動駕駛產(chǎn)業(yè)應(yīng)該最終都會交叉,因?yàn)樗麄兯惴ㄜ浖牡讓舆壿嬍且粯拥。我們之前文章《IAA 2025 慕尼黑車展:中國汽車軍團(tuán)們,從“貿(mào)易出口”到“勢不可擋”》也分享到了,中國在輔助駕駛開拓算法的公司不管Momenta、元戎、大疆都也和其他專做L4的公司一樣在歐洲和中東各地掘金L4。
本文是基于Waymo 感知算法負(fù)責(zé)人 Wu Chen女士在今年CVPR上演講內(nèi)容總結(jié),再根據(jù)自身經(jīng)驗(yàn)分析自動駕駛算法、發(fā)展現(xiàn)狀以及對于自動駕駛到底最重要的東西是什么。
構(gòu)建一個(gè)世界模型
Waymo表示,他們開發(fā)了一個(gè)名為 Waymo 基礎(chǔ)模型的大規(guī)模 AI 模型,該模型支持車輛感知周圍環(huán)境、預(yù)測道路上其他車輛的行為、模擬場景并做出駕駛決策。
這個(gè)龐大模型的功能類似于 ChatGPT 等大型語言模型 (LLM),這些模型基于海量數(shù)據(jù)集進(jìn)行訓(xùn)練,以學(xué)習(xí)模式并進(jìn)行預(yù)測。正如OpenAI 和 Google 等公司構(gòu)建了更新的多模態(tài)模型來整合不同類型的數(shù)據(jù)(例如文本、圖像、音頻或視頻)一樣,Waymo 的 AI 能夠整合來自多個(gè)來源的傳感器數(shù)據(jù)來理解其周圍環(huán)境。
Waymo 基礎(chǔ)模型是一個(gè)單一的大型模型,但車端是一個(gè)較小的模型,不過這個(gè)模型是從更大的模型中“提煉”出來的——因?yàn)樗枰銐蚓o湊才能部署在車端。
大型模型被用作“教師”模型,將其知識和能力傳授給較小的“學(xué)生”模型——這一過程在生成式人工智能領(lǐng)域被廣泛使用。小型模型針對速度和效率進(jìn)行了優(yōu)化,并在每輛車上實(shí)時(shí)運(yùn)行,同時(shí)仍保留駕駛汽車所需的關(guān)鍵決策能力。
因此,感知和行為任務(wù)(包括感知物體、預(yù)測其他道路使用者的行為以及規(guī)劃汽車的下一步行動)都可以在車上實(shí)時(shí)進(jìn)行。
云端的更大的模型還可以模擬真實(shí)的駕駛環(huán)境,在部署到 Waymo 車輛之前,進(jìn)行虛擬測試和驗(yàn)證其決策。
所以,Waymo的世界模型可以、編碼所有傳感器數(shù)據(jù)(攝像頭、雷達(dá)、激光雷達(dá))并內(nèi)置世界知識,解碼所有駕駛相關(guān)任務(wù)(蒸餾縮小放在車端做感知、控制,可以在云端做虛擬仿真),這樣可以實(shí)現(xiàn)強(qiáng)大的泛化能力和快速適應(yīng)不同平臺。
有了這個(gè)世界模型的算法,基本上解決了自動駕駛?cè)粘栴}
接下來的任務(wù)-解決長尾問題
自動駕駛的長尾問題,無非就是天氣、能見度低、遮擋、施工等復(fù)雜場景。雖然字面上很容易,但對于自動駕駛就是難解之題。
天氣:
例如:雨后的路況的水坑,以及不常發(fā)生的洪水,自動駕駛算法需要判斷水深和大量上下文信息,精確度和召回率要求極高,大量的空間信息。
Waymo的解法是采用VLM,但是前提條件是大量此類語料庫。
雪地駕駛,這對車輛硬件要求高,傳感器需要加熱和清潔功能以應(yīng)對堵塞。雪地駕駛的挑戰(zhàn)還包括:如何決定行駛路線(地圖是否仍然重要)、識別車轍,以及估計(jì)摩擦力。
低能見度與遮擋:
在極端低能見度下,如夜間高速公路上的行人或車輛,單個(gè)傳感器可能無法檢測,需要多模態(tài)傳感器的協(xié)同。
鳳凰城特有的沙塵暴(哈布)也對傳感器識別構(gòu)成挑戰(zhàn),激光雷達(dá)可以在塵暴中清晰看到行人
遮擋推理(Occlusion Reasoning):
最常見的就是視線不好的地方,到底有沒有鬼探頭,有沒有加塞等。這類看不見區(qū)域中物體的存在和狀態(tài),對駕駛安全至關(guān)重要。
挑戰(zhàn)包括:定義不明確、非確定性、缺乏真值(ground truth)以建立基準(zhǔn)、主觀性、交通參與者多樣性以及高度依賴上下文。
人類常常對這種場景采取的方式是防御性駕駛
Waymo的解決方案包括:估計(jì)不確定的物體的先驗(yàn)信息(通過學(xué)習(xí)駕駛數(shù)據(jù)統(tǒng)計(jì)信息和利用微弱的傳感器線索,其實(shí)也就是原有數(shù)據(jù))以及準(zhǔn)確估計(jì)自車速度先驗(yàn)(在不確定性高的路口,速度估計(jì)過低或過高都會導(dǎo)致問題)。
復(fù)雜場景理解:
施工場景:需要識別標(biāo)志、推理駕駛幾何形狀,并根據(jù)錐筒等物體調(diào)整路線。
動態(tài)場景:如交通警官的手勢,需要實(shí)時(shí)響應(yīng)動態(tài)信號。
活躍事故現(xiàn)場:涉及大量應(yīng)急車輛和路況堵塞,需要整體場景理解來推理,并決定最佳行動路線,而不僅僅是識別單個(gè)物體(如警戒線)。
總的來講,對于復(fù)雜場景,不僅僅是識別特征元素那么簡單,需要使用LLM大語言模型理解場景,然后根據(jù)場景內(nèi)容做出決策。對于復(fù)雜場景Waymo表示他們也在探索。
自動駕駛開發(fā)到底什么最重要?
自動駕駛時(shí)人工智能落地的場景,所以自動駕駛最重要的東西也就是人工智能的三大件:數(shù)據(jù)、算法、算力。
但Waymo自動駕駛對這三大件卻只提了數(shù)據(jù),Waymo表示基礎(chǔ)是擁有大量數(shù)據(jù)很重要,但數(shù)據(jù)篩選和整理更為關(guān)鍵,高效高質(zhì)的數(shù)據(jù)才能確保模型專注于解決正確的問題。
Waymo使用語言搜索、基于嵌入的搜索(適用于外觀和行為)、少樣本學(xué)習(xí)和主動學(xué)習(xí)等技術(shù)
對于自動駕駛,數(shù)據(jù)里面肯定海量視頻,如何數(shù)據(jù)挖礦出高質(zhì)的視頻,那么視頻搜索能力中對于理解事件(如汽車碰撞、漂移、翹頭)的含義至關(guān)重要。
快速的實(shí)時(shí)決策,天下武功唯快不破,自動駕駛也一樣,Waymo表示誰能讓算法到執(zhí)行的鏈路用時(shí)越短,那么誰的自動駕駛就能做的更安全,更絲滑。
怎么理解這個(gè)自動駕駛的響應(yīng)快,這個(gè)得拆解自動駕駛從攝像頭等傳感器的輸入響應(yīng),然后就是算法的運(yùn)算結(jié)論交給底盤等執(zhí)行機(jī)構(gòu)。
傳感器的輸入響應(yīng),基本上就是看攝像頭的fps和激光雷達(dá)等幀率,目前攝像頭幀率都大于24Hz。
算法的響應(yīng),基本上就是算法能夠處理多塊的幀率,然后按照多快的幀率比如10Hz和20Hz輸送給底盤執(zhí)行機(jī)構(gòu)。
底盤機(jī)構(gòu)響應(yīng),這就是為什么這個(gè)時(shí)代油液的發(fā)動機(jī)和底盤已經(jīng)不適應(yīng)了,電機(jī)電控的控制頻率已經(jīng)非常高了,例如底盤剎車ESP的響應(yīng)都是上百Hz。
所以,當(dāng)前快速響應(yīng)決策基本上都是卡在各家算法的處理輸出響應(yīng)頻率。
最后,Waymo認(rèn)為他的Depots運(yùn)營停車場,改裝工廠是最重要的,因?yàn)閃aymo是做L4的,這些設(shè)備能夠幫助L4順利快速的運(yùn)營。
Waymo的Depots運(yùn)營停車場,目前車輛能夠自己進(jìn)入停車場,找充電的空位,充完電只要拔完槍,車子就自動開出去運(yùn)營。
Waymo的改裝車間,自動駕駛車輛,只要裝完了傳感器,車輛就能夠自動駛出生產(chǎn)線,自己駛?cè)脒\(yùn)輸卡車或者就直接開始運(yùn)營。
寫在最后
當(dāng)然,Waymo這個(gè)在CVPR上的討論,更多的是算法和開發(fā)以及少量運(yùn)營。但對于輔助駕駛/自動駕駛批量生產(chǎn)和運(yùn)營猶如汽車制造一樣,還有更大的是工程落地的很多dirty work,可能Waymo還沒有走到那一步。
工程落地是自動駕駛行業(yè)一個(gè)較大的壁壘,需要協(xié)同汽車開發(fā),協(xié)同測試運(yùn)營,聽說行業(yè)內(nèi)做的好的自動駕駛公司基本上都是挖角當(dāng)年傳統(tǒng)汽車工程師來做,例如博世等的工程師。
輔助駕駛/自動駕駛產(chǎn)業(yè)應(yīng)該最終都會交叉,因?yàn)樗麄兯惴ㄜ浖牡讓舆壿嬍且粯拥摹?/p>
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-
原文標(biāo)題 : Waymo自動駕駛最新探索實(shí)踐:世界模型、長尾問題、最重要的東西

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報(bào)名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬億刺激”計(jì)劃來了
- 6 2025年8月人工智能投融資觀察
- 7 a16z最新AI百強(qiáng)榜:硅谷頂級VC帶你讀懂全球生成式AI賽道最新趨勢
- 8 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬套HSD上車