不止E2E:AI大模型正開啟自動駕駛的“具身智能”時代
在自動駕駛技術(shù)日新月異的今天,我們正站在一個關(guān)鍵的十字路口。從早期模塊化的“感知-定位-規(guī)劃-控制”系統(tǒng),到特斯拉引領(lǐng)的端到端(E2E)學(xué)習(xí),再到如今融合了視覺、語言和動作(VLA)的具身智能趨勢,每一次范式轉(zhuǎn)變都預(yù)示著自動駕駛能力的巨大飛躍。
本文將深入探討這些演進(jìn)路徑,剖析它們各自的優(yōu)勢與挑戰(zhàn),并展望VLA模型如何引領(lǐng)我們邁向更安全、更通用、更人性化的智能駕駛未來。
1.模塊化時代:從規(guī)則到智能駕駛的初探自動駕駛系統(tǒng)早期是怎么搞的?基本是模塊化設(shè)計,分成了感知、定位、規(guī)劃、控制四大塊。這就像搭積木,每個模塊都有自己的活兒,目的就是讓自動駕駛這事兒好落地,也就是Rule based(基于規(guī)則)時代。大家寫規(guī)則、驗證模塊,一切看起來井井有條。
但問題也來了:感知、預(yù)測和規(guī)劃這些模塊之間,很容易出現(xiàn)誤差累積和信息丟失。
最經(jīng)典的模塊化例子就是通用的Super Cruise。它用CNN視覺算法識別車道線、物體,再結(jié)合高精地圖和RTK定位,最后融合起來做路徑規(guī)劃和控制,實現(xiàn)了智能駕駛。
中國新勢力們的“Pilot”一代,像2019年蔚來的 NIO Pilot和小鵬的 XPilot,都屬于這種。直到現(xiàn)在,大部分高速領(lǐng)航輔助還是這個路子,畢竟方案成熟,性價比高。
當(dāng)時,像 Mobileye和英偉達(dá) Xavier這些只有幾到30TOPS算力的小芯片,就已經(jīng)撐起了智駕行業(yè)的一片天。
2.端到端(E2E):特斯拉開創(chuàng)的新紀(jì)元端到端(E2E)駕駛策略徹底顛覆了傳統(tǒng)。它直接把原始傳感器數(shù)據(jù)映射到控制指令,跳過了那些手工編寫的規(guī)則代碼和模塊化流程。
E2E本質(zhì)上是個視覺到行動(VA)系統(tǒng)。視覺輸入可以來自攝像頭或激光雷達(dá),行動輸出通常是未來的軌跡或控制信號。特斯拉FSD就是E2E的典型代表。它通過BEV(鳥瞰圖)和Occ(占用網(wǎng)絡(luò))等技術(shù),聯(lián)合時空一體的端到端大模型,打通了從視覺到執(zhí)行的鏈條,形成了數(shù)據(jù)閉環(huán)。有了影子數(shù)據(jù)配合General World Model(通用世界模型)生成數(shù)據(jù),實現(xiàn)了E2E大模型的閉環(huán)訓(xùn)練和算法迭代。
不過,從2023年起,特斯拉就不再公開FSD的算法結(jié)構(gòu)了。所以現(xiàn)在FSD到底怎么搞的,我們只能靠猜,或者少數(shù)業(yè)內(nèi)人士才清楚。在國內(nèi),隨著2024年智能駕駛開始“進(jìn)城”,無窮無盡的復(fù)雜場景讓規(guī)則化設(shè)計忙不過來了。這時,英偉達(dá)的256TOPS Orin X大算力芯片及時送來“神助攻”,行業(yè)開始轉(zhuǎn)向特斯拉那種更集成的端到端方案。把感知、預(yù)測、規(guī)劃模塊整合到一個統(tǒng)一框架里,主要是為了促進(jìn)跨模塊的特征級信息流,確保數(shù)據(jù)高效閉環(huán)。但學(xué)術(shù)界發(fā)現(xiàn),傳統(tǒng)E2E算法在訓(xùn)練數(shù)據(jù)超過一定量后,收益會遞減,而且不同場景類型下的性能差異很大。
這些表明,光靠數(shù)據(jù)堆砌,不足以實現(xiàn)L4級以上的自動駕駛能力?偟膩碚f,端到端學(xué)習(xí)確實大大縮短了原始傳感器輸入到控制決策的距離,但仍有兩大持續(xù)挑戰(zhàn):語義脆弱:對人類世界的語言和符號信息(比如路牌、警笛聲),在罕見或快速變化的場景下容易失效。推理不透明:可解釋性差,很難進(jìn)行安全審計和驗證。模型升級后,只能通過一次次模型刷機、試駕才能知道有沒有回退,有沒有效果。
3.VLM:當(dāng)大語言模型遇見自動駕駛2022年底,OpenAI開啟的GPT時代讓我們瞬間見識了大語言模型(LLM)的強大,當(dāng)時LLM就像核武器一樣高端不可及。但到了2024、2025年,Meta的LLaMA、深度求索的Deepseek、阿里的Qwen等大量開源多模態(tài)LLM出現(xiàn),讓大家心里癢癢,躍躍欲試想把它引入汽車智駕行業(yè)。LLM和VLM(視覺語言模型)通過在共享嵌入空間內(nèi)統(tǒng)一感知和自然語言推理,提供了一種有希望的解決方案。
所以,把語言模式和駕駛?cè)蝿?wù)結(jié)合起來,為增強自動駕駛系統(tǒng)的感知推理能力、可解釋性和泛化能力,提供了新的方向。這其中的核心是大規(guī)模多模態(tài)預(yù)訓(xùn)練。它能讓模型獲得常識性關(guān)聯(lián)(比如,看到文字標(biāo)牌/路口就該減速;聽到警笛就該讓;看到潮汐車道/公交車道就知道何時能進(jìn)何時不能進(jìn)等),而傳統(tǒng)的E2E任務(wù)標(biāo)簽往往會忽略這些。雖然大型基礎(chǔ)模型對常識推理和極端情況理解很有用,但把它集成到駕駛系統(tǒng)也有缺點:空間感知能力差、數(shù)值輸出模糊,以及規(guī)劃延遲增加。學(xué)術(shù)界有很多論文研究用VLM來增強E2E智能駕駛,但產(chǎn)業(yè)界目前只有理想汽車進(jìn)行了落地探索。理想采用了雙系統(tǒng)架構(gòu),把知識蒸餾后的離線VLM作為“慢系統(tǒng)”,給“快系統(tǒng)”端到端系統(tǒng)提供反饋或輔助信號。
畢竟,兩塊加起來才504TOPS的Orin X芯片,跑這類大語言模型還是有點吃力,即使是蒸餾縮小后的。
4.VLA:具身智能開啟的駕駛新范式隨著人工智能的發(fā)展,具身智能機器人產(chǎn)品不像汽車那樣對安全敏感,各種實驗機會推動了機器人產(chǎn)業(yè)的蓬勃發(fā)展。而將視覺、語言和動作統(tǒng)一在一個框架內(nèi),已經(jīng)成為具身智能機器人領(lǐng)域的一個趨勢。同樣是應(yīng)用于人類物理世界的AI,汽車產(chǎn)業(yè)自然也受到了具身智能最新進(jìn)展的啟發(fā)——開始采用VLA(視覺-語言-動作)。
VLA利用在互聯(lián)網(wǎng)規(guī)模的視覺和語言數(shù)據(jù)上預(yù)訓(xùn)練的基礎(chǔ)模型,在各個領(lǐng)域和基準(zhǔn)上都展現(xiàn)出強大的泛化能力。此外,VLA還聯(lián)合推理視覺、語言和動作,融合了文本和軌跡輸出、長視域記憶、符號安全檢查以及多模態(tài)擴(kuò)散規(guī)劃,開啟了VLA的新范式。更重要的是,VLA支持語言(指令/問答)交互,也就是說,它真的有可能實現(xiàn)把自動駕駛當(dāng)作你的專屬“司機師傅”:直接導(dǎo)航命令:“在下一個路口左轉(zhuǎn)”、“停在紅色車輛后面”,能聽懂基本指令。
隨著系統(tǒng)成熟,用戶或代理可以提問:“現(xiàn)在變道安全嗎?”或者“這里的限速是多少?”——實現(xiàn)了交互式態(tài)勢感知,環(huán)境查詢變得可能。進(jìn)一步的進(jìn)展引入了任務(wù)級語言規(guī)范,比如解釋交通規(guī)則、解析高級目標(biāo),或者理解自然語言表達(dá)的地圖約束。甚至可以轉(zhuǎn)向多輪對話、推理鏈(比如,思路鏈提示)。還可以采用工具增強的語言界面,支持更豐富的推理形式,并與人類的決策過程保持一致。當(dāng)然,目前這些VLA語言交互都還只是實驗室理論成功項目,絕大部分都還沒有量產(chǎn)。
但這些進(jìn)步,代表著從以感知為中心的VLM流程,向行動感知、可解釋、指令遵循的多模態(tài)代理VLA的決定性轉(zhuǎn)變,為更安全、更通用、更人性化的自動駕駛鋪平了道路。2025年,英偉達(dá)的下一代邊緣算力芯片Thor,幾經(jīng)推遲后,終于有一塊720TOPS的Thor U有望推出,它將能跑VLA!瞬間點燃了2025年中國汽車VLA的落地戰(zhàn)役。當(dāng)然,目前理想、小鵬、元戎等明確表示將量產(chǎn),但都處于非常早期。VLA的技術(shù)細(xì)節(jié)主要有三大核心模塊:視覺編碼器:采用自監(jiān)督模型如DINOv2、CLIP,結(jié)合BEV投影和LiDAR融合技術(shù)。語言處理器:大語言模型(如LLaMA、Qwen、Vicuna、GPT等),通常通過LoRA等輕量化技術(shù)優(yōu)化。動作解碼器:包括自回歸token、擴(kuò)散規(guī)劃器、分層控制器(高層策略→PID/MPC控制)。
VLA在智能駕駛應(yīng)用方面仍非常早期。學(xué)術(shù)界將VLA模型在智駕方面的發(fā)展歸納為四個主要階段:Pre-VLA:語言作為解釋器LLM解碼器用自然語言解釋駕駛場景或推薦操作,但實際車輛控制還是由傳統(tǒng)模塊(PID控制器等)處理。無需直接輸出控制。例如,它會拍一張前置攝像頭圖像,生成文本描述或高級操作標(biāo)簽(“減速”、“左轉(zhuǎn)”),然后輸入給車輛控制。所以,它叫Pre-VLA。目前蔚來汽車的NWM(世界模型)有點類似,其“停車場自主尋路”功能就采用了類似方案:前攝像頭在停車場尋找箭頭指示牌,生成標(biāo)簽,車控接收并執(zhí)行。
模塊化VLA:語言模型從被動的場景描述者,變成了模塊化架構(gòu)中主動的規(guī)劃組件,有點像國內(nèi)發(fā)明的兩段式端到端概念:VLM + Action,Action是拆開的。例如采用混合專家架構(gòu),如“超車專家”或“走走停停專家”,利用語言提示根據(jù)上下文動態(tài)選擇子規(guī)劃器。理想汽車宣傳的VLA“語言控制MoE”等概念,似乎也類似此類。統(tǒng)一端到端VLA(如EMMA):單一網(wǎng)絡(luò)直接映射多模態(tài)輸入到控制或軌跡輸出,國內(nèi)叫法可以稱為一段式VLA。Waymo的EMMA應(yīng)該是統(tǒng)一的端到端VLA,它將多模態(tài)數(shù)據(jù)(視覺、激光雷達(dá)甚至4D毫米波雷達(dá))統(tǒng)一輸入,聯(lián)合執(zhí)行物體檢測和運動規(guī)劃。但學(xué)術(shù)界也指出,端到端VLA的局限在于長程推理和復(fù)雜多步規(guī)劃能力有限。推理增強型VLA:語言模型處于控制閉環(huán)的核心,同時支持長時記憶和鏈?zhǔn)酵评。這樣它能在輸出動作之前進(jìn)行解釋、預(yù)測并執(zhí)行長遠(yuǎn)推理,真正實現(xiàn)代理司機的概念。
目前汽車自動駕駛產(chǎn)業(yè)界,小鵬提起了類似VLA能力,但根據(jù)發(fā)布信息,這應(yīng)該是“期貨”、實驗室和廣告信息,上車不會早于明年初。畢竟,長推理、帶記憶的VLA面臨兩大問題:車載大算力需求和CoT(思考鏈)推理延遲。
5.尾聲:基礎(chǔ)模型與世界模型
關(guān)注智能駕駛算法軟件發(fā)展的朋友,可能還聽過兩個熱詞:“基礎(chǔ)模型(FM)”和“世界模型(WM)”。
基礎(chǔ)模型,你可以理解為VLA模型中多模態(tài)感知推理模塊的“母模型”。它最原始是在云端訓(xùn)練,基本都是科技大廠的東西,汽車行業(yè)應(yīng)用都是在此基礎(chǔ)上進(jìn)行微調(diào)和特殊化訓(xùn)練。例如,現(xiàn)在小鵬和理想的基座模型基本都采用了阿里的通義千問。
具體,可以看三圖看懂自動駕駛基礎(chǔ)模型 Foundation Models這篇
世界模型,本文中特斯拉和蔚來的NWM分別代表了世界模型的兩大作用:一是構(gòu)建物理虛擬世界用于仿真;二就是類似基礎(chǔ)模型用于智能駕駛算法。
具體可以看世界模型 World Model 101這篇
其實,這兩個詞都是為了方便宣傳和理解。它們的相同點都是通識大模型,能理解人類物理世界,并具備推理能力;不同點只是應(yīng)用和角度不一樣罷了。
最后縱觀自動駕駛技術(shù)的發(fā)展歷程,我們清晰地看到了從模塊化設(shè)計的工程化探索,到端到端(E2E)學(xué)習(xí)的集成化突破,再到如今視覺-語言-動作(VLA)模型所代表的具身智能新范式。當(dāng)前,我們正處于 VLA技術(shù)從實驗室走向量產(chǎn)的早期階段,算力需求和推理延遲是亟待解決的實際問題。然而,隨著英偉達(dá)等芯片廠商提供更強大的邊緣計算能力,以及蔚來、理想、小鵬等廠商的積極自研大算力芯片和探索,基于大語言模型的VLA有望成為下一代智能駕駛的核心驅(qū)動力,真正將自動駕駛汽車打造成為我們專屬的“AI司機”。
參考文章以及圖片
自動駕駛視覺-語言-動作模型綜述ppt版本和pdf版本 - 江思聰1 *、黃子林4 *、錢康安2 *、羅子昂2、朱天澤2、鐘陽3、唐一紅1、孔夢琳1、王云龍2、焦斯文3、葉浩 3 、盛子豪4、趙新2、托普溫2 、鄭 富2、陳斯凱4、 Kun Jiang 2 , 6 , Diiange Yang 2 , 6 , Seongjin Choi 5 , Lijun Sun 1 1加拿大麥吉爾大學(xué) 2中國清華大學(xué) 3小米集團(tuán) 4美國威斯康星大學(xué)麥迪遜分校 5美國明尼蘇達(dá)大學(xué)雙城分校 6清華大學(xué)智能綠色汽車與出行國家重點實驗室
原文標(biāo)題 : 不止E2E:AI大模型正開啟自動駕駛的“具身智能”時代

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進(jìn)入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題