123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 核心硬件 > 正文

不止E2E：AI大模型正開(kāi)啟自動(dòng)駕駛的“具身智能”時(shí)代

2025-07-24 11:17

vehicle公眾號(hào)

在自動(dòng)駕駛技術(shù)日新月異的今天，我們正站在一個(gè)關(guān)鍵的十字路口。從早期模塊化的“感知-定位-規(guī)劃-控制”系統(tǒng)，到特斯拉引領(lǐng)的端到端（E2E）學(xué)習(xí)，再到如今融合了視覺(jué)、語(yǔ)言和動(dòng)作（VLA）的具身智能趨勢(shì)，每一次范式轉(zhuǎn)變都預(yù)示著自動(dòng)駕駛能力的巨大飛躍。

本文將深入探討這些演進(jìn)路徑，剖析它們各自的優(yōu)勢(shì)與挑戰(zhàn)，并展望VLA模型如何引領(lǐng)我們邁向更安全、更通用、更人性化的智能駕駛未來(lái)。

1.模塊化時(shí)代：從規(guī)則到智能駕駛的初探自動(dòng)駕駛系統(tǒng)早期是怎么搞的？基本是模塊化設(shè)計(jì)，分成了感知、定位、規(guī)劃、控制四大塊。這就像搭積木，每個(gè)模塊都有自己的活兒，目的就是讓自動(dòng)駕駛這事兒好落地，也就是Rule based（基于規(guī)則）時(shí)代。大家寫(xiě)規(guī)則、驗(yàn)證模塊，一切看起來(lái)井井有條。

但問(wèn)題也來(lái)了：感知、預(yù)測(cè)和規(guī)劃這些模塊之間，很容易出現(xiàn)誤差累積和信息丟失。

最經(jīng)典的模塊化例子就是通用的Super Cruise。它用CNN視覺(jué)算法識(shí)別車道線、物體，再結(jié)合高精地圖和RTK定位，最后融合起來(lái)做路徑規(guī)劃和控制，實(shí)現(xiàn)了智能駕駛。

中國(guó)新勢(shì)力們的“Pilot”一代，像2019年蔚來(lái)的 NIO Pilot和小鵬的 XPilot，都屬于這種。直到現(xiàn)在，大部分高速領(lǐng)航輔助還是這個(gè)路子，畢竟方案成熟，性價(jià)比高。

當(dāng)時(shí)，像 Mobileye和英偉達(dá) Xavier這些只有幾到30TOPS算力的小芯片，就已經(jīng)撐起了智駕行業(yè)的一片天。

2.端到端（E2E）：特斯拉開(kāi)創(chuàng)的新紀(jì)元端到端（E2E）駕駛策略徹底顛覆了傳統(tǒng)。它直接把原始傳感器數(shù)據(jù)映射到控制指令，跳過(guò)了那些手工編寫(xiě)的規(guī)則代碼和模塊化流程。

E2E本質(zhì)上是個(gè)視覺(jué)到行動(dòng)（VA）系統(tǒng)。視覺(jué)輸入可以來(lái)自攝像頭或激光雷達(dá)，行動(dòng)輸出通常是未來(lái)的軌跡或控制信號(hào)。特斯拉FSD就是E2E的典型代表。它通過(guò)BEV（鳥(niǎo)瞰圖）和Occ（占用網(wǎng)絡(luò)）等技術(shù)，聯(lián)合時(shí)空一體的端到端大模型，打通了從視覺(jué)到執(zhí)行的鏈條，形成了數(shù)據(jù)閉環(huán)。有了影子數(shù)據(jù)配合General World Model（通用世界模型）生成數(shù)據(jù)，實(shí)現(xiàn)了E2E大模型的閉環(huán)訓(xùn)練和算法迭代。

不過(guò)，從2023年起，特斯拉就不再公開(kāi)FSD的算法結(jié)構(gòu)了。所以現(xiàn)在FSD到底怎么搞的，我們只能靠猜，或者少數(shù)業(yè)內(nèi)人士才清楚。在國(guó)內(nèi)，隨著2024年智能駕駛開(kāi)始“進(jìn)城”，無(wú)窮無(wú)盡的復(fù)雜場(chǎng)景讓規(guī)則化設(shè)計(jì)忙不過(guò)來(lái)了。這時(shí)，英偉達(dá)的256TOPS Orin X大算力芯片及時(shí)送來(lái)“神助攻”，行業(yè)開(kāi)始轉(zhuǎn)向特斯拉那種更集成的端到端方案。把感知、預(yù)測(cè)、規(guī)劃模塊整合到一個(gè)統(tǒng)一框架里，主要是為了促進(jìn)跨模塊的特征級(jí)信息流，確保數(shù)據(jù)高效閉環(huán)。但學(xué)術(shù)界發(fā)現(xiàn)，傳統(tǒng)E2E算法在訓(xùn)練數(shù)據(jù)超過(guò)一定量后，收益會(huì)遞減，而且不同場(chǎng)景類型下的性能差異很大。

這些表明，光靠數(shù)據(jù)堆砌，不足以實(shí)現(xiàn)L4級(jí)以上的自動(dòng)駕駛能力�？偟膩�(lái)說(shuō)，端到端學(xué)習(xí)確實(shí)大大縮短了原始傳感器輸入到控制決策的距離，但仍有兩大持續(xù)挑戰(zhàn)：語(yǔ)義脆弱：對(duì)人類世界的語(yǔ)言和符號(hào)信息（比如路牌、警笛聲），在罕見(jiàn)或快速變化的場(chǎng)景下容易失效。推理不透明：可解釋性差，很難進(jìn)行安全審計(jì)和驗(yàn)證。模型升級(jí)后，只能通過(guò)一次次模型刷機(jī)、試駕才能知道有沒(méi)有回退，有沒(méi)有效果。

3.VLM：當(dāng)大語(yǔ)言模型遇見(jiàn)自動(dòng)駕駛2022年底，OpenAI開(kāi)啟的GPT時(shí)代讓我們瞬間見(jiàn)識(shí)了大語(yǔ)言模型（LLM）的強(qiáng)大，當(dāng)時(shí)LLM就像核武器一樣高端不可及。但到了2024、2025年，Meta的LLaMA、深度求索的Deepseek、阿里的Qwen等大量開(kāi)源多模態(tài)LLM出現(xiàn)，讓大家心里癢癢，躍躍欲試想把它引入汽車智駕行業(yè)。LLM和VLM（視覺(jué)語(yǔ)言模型）通過(guò)在共享嵌入空間內(nèi)統(tǒng)一感知和自然語(yǔ)言推理，提供了一種有希望的解決方案。

所以，把語(yǔ)言模式和駕駛?cè)蝿?wù)結(jié)合起來(lái)，為增強(qiáng)自動(dòng)駕駛系統(tǒng)的感知推理能力、可解釋性和泛化能力，提供了新的方向。這其中的核心是大規(guī)模多模態(tài)預(yù)訓(xùn)練。它能讓模型獲得常識(shí)性關(guān)聯(lián)（比如，看到文字標(biāo)牌/路口就該減速；聽(tīng)到警笛就該讓；看到潮汐車道/公交車道就知道何時(shí)能進(jìn)何時(shí)不能進(jìn)等），而傳統(tǒng)的E2E任務(wù)標(biāo)簽往往會(huì)忽略這些。雖然大型基礎(chǔ)模型對(duì)常識(shí)推理和極端情況理解很有用，但把它集成到駕駛系統(tǒng)也有缺點(diǎn)：空間感知能力差、數(shù)值輸出模糊，以及規(guī)劃延遲增加。學(xué)術(shù)界有很多論文研究用VLM來(lái)增強(qiáng)E2E智能駕駛，但產(chǎn)業(yè)界目前只有理想汽車進(jìn)行了落地探索。理想采用了雙系統(tǒng)架構(gòu)，把知識(shí)蒸餾后的離線VLM作為“慢系統(tǒng)”，給“快系統(tǒng)”端到端系統(tǒng)提供反饋或輔助信號(hào)。

畢竟，兩塊加起來(lái)才504TOPS的Orin X芯片，跑這類大語(yǔ)言模型還是有點(diǎn)吃力，即使是蒸餾縮小后的。

4.VLA：具身智能開(kāi)啟的駕駛新范式隨著人工智能的發(fā)展，具身智能機(jī)器人產(chǎn)品不像汽車那樣對(duì)安全敏感，各種實(shí)驗(yàn)機(jī)會(huì)推動(dòng)了機(jī)器人產(chǎn)業(yè)的蓬勃發(fā)展。而將視覺(jué)、語(yǔ)言和動(dòng)作統(tǒng)一在一個(gè)框架內(nèi)，已經(jīng)成為具身智能機(jī)器人領(lǐng)域的一個(gè)趨勢(shì)。同樣是應(yīng)用于人類物理世界的AI，汽車產(chǎn)業(yè)自然也受到了具身智能最新進(jìn)展的啟發(fā)——開(kāi)始采用VLA（視覺(jué)-語(yǔ)言-動(dòng)作）。

VLA利用在互聯(lián)網(wǎng)規(guī)模的視覺(jué)和語(yǔ)言數(shù)據(jù)上預(yù)訓(xùn)練的基礎(chǔ)模型，在各個(gè)領(lǐng)域和基準(zhǔn)上都展現(xiàn)出強(qiáng)大的泛化能力。此外，VLA還聯(lián)合推理視覺(jué)、語(yǔ)言和動(dòng)作，融合了文本和軌跡輸出、長(zhǎng)視域記憶、符號(hào)安全檢查以及多模態(tài)擴(kuò)散規(guī)劃，開(kāi)啟了VLA的新范式。更重要的是，VLA支持語(yǔ)言（指令/問(wèn)答）交互，也就是說(shuō)，它真的有可能實(shí)現(xiàn)把自動(dòng)駕駛當(dāng)作你的專屬“司機(jī)師傅”：直接導(dǎo)航命令：“在下一個(gè)路口左轉(zhuǎn)”、“停在紅色車輛后面”，能聽(tīng)懂基本指令。

隨著系統(tǒng)成熟，用戶或代理可以提問(wèn)：“現(xiàn)在變道安全嗎？”或者“這里的限速是多少？”——實(shí)現(xiàn)了交互式態(tài)勢(shì)感知，環(huán)境查詢變得可能。進(jìn)一步的進(jìn)展引入了任務(wù)級(jí)語(yǔ)言規(guī)范，比如解釋交通規(guī)則、解析高級(jí)目標(biāo)，或者理解自然語(yǔ)言表達(dá)的地圖約束。甚至可以轉(zhuǎn)向多輪對(duì)話、推理鏈（比如，思路鏈提示）。還可以采用工具增強(qiáng)的語(yǔ)言界面，支持更豐富的推理形式，并與人類的決策過(guò)程保持一致。當(dāng)然，目前這些VLA語(yǔ)言交互都還只是實(shí)驗(yàn)室理論成功項(xiàng)目，絕大部分都還沒(méi)有量產(chǎn)。

但這些進(jìn)步，代表著從以感知為中心的VLM流程，向行動(dòng)感知、可解釋、指令遵循的多模態(tài)代理VLA的決定性轉(zhuǎn)變，為更安全、更通用、更人性化的自動(dòng)駕駛鋪平了道路。2025年，英偉達(dá)的下一代邊緣算力芯片Thor，幾經(jīng)推遲后，終于有一塊720TOPS的Thor U有望推出，它將能跑VLA！瞬間點(diǎn)燃了2025年中國(guó)汽車VLA的落地戰(zhàn)役。當(dāng)然，目前理想、小鵬、元戎等明確表示將量產(chǎn)，但都處于非常早期。VLA的技術(shù)細(xì)節(jié)主要有三大核心模塊：視覺(jué)編碼器：采用自監(jiān)督模型如DINOv2、CLIP，結(jié)合BEV投影和LiDAR融合技術(shù)。語(yǔ)言處理器：大語(yǔ)言模型（如LLaMA、Qwen、Vicuna、GPT等），通常通過(guò)LoRA等輕量化技術(shù)優(yōu)化。動(dòng)作解碼器：包括自回歸token、擴(kuò)散規(guī)劃器、分層控制器（高層策略→PID/MPC控制）。

VLA在智能駕駛應(yīng)用方面仍非常早期。學(xué)術(shù)界將VLA模型在智駕方面的發(fā)展歸納為四個(gè)主要階段：Pre-VLA：語(yǔ)言作為解釋器LLM解碼器用自然語(yǔ)言解釋駕駛場(chǎng)景或推薦操作，但實(shí)際車輛控制還是由傳統(tǒng)模塊（PID控制器等）處理。無(wú)需直接輸出控制。例如，它會(huì)拍一張前置攝像頭圖像，生成文本描述或高級(jí)操作標(biāo)簽（“減速”、“左轉(zhuǎn)”），然后輸入給車輛控制。所以，它叫Pre-VLA。目前蔚來(lái)汽車的NWM（世界模型）有點(diǎn)類似，其“停車場(chǎng)自主尋路”功能就采用了類似方案：前攝像頭在停車場(chǎng)尋找箭頭指示牌，生成標(biāo)簽，車控接收并執(zhí)行。

模塊化VLA：語(yǔ)言模型從被動(dòng)的場(chǎng)景描述者，變成了模塊化架構(gòu)中主動(dòng)的規(guī)劃組件，有點(diǎn)像國(guó)內(nèi)發(fā)明的兩段式端到端概念：VLM + Action，Action是拆開(kāi)的。例如采用混合專家架構(gòu)，如“超車專家”或“走走停停專家”，利用語(yǔ)言提示根據(jù)上下文動(dòng)態(tài)選擇子規(guī)劃器。理想汽車宣傳的VLA“語(yǔ)言控制MoE”等概念，似乎也類似此類。統(tǒng)一端到端VLA（如EMMA）：?jiǎn)我痪W(wǎng)絡(luò)直接映射多模態(tài)輸入到控制或軌跡輸出，國(guó)內(nèi)叫法可以稱為一段式VLA。Waymo的EMMA應(yīng)該是統(tǒng)一的端到端VLA，它將多模態(tài)數(shù)據(jù)（視覺(jué)、激光雷達(dá)甚至4D毫米波雷達(dá)）統(tǒng)一輸入，聯(lián)合執(zhí)行物體檢測(cè)和運(yùn)動(dòng)規(guī)劃。但學(xué)術(shù)界也指出，端到端VLA的局限在于長(zhǎng)程推理和復(fù)雜多步規(guī)劃能力有限。推理增強(qiáng)型VLA：語(yǔ)言模型處于控制閉環(huán)的核心，同時(shí)支持長(zhǎng)時(shí)記憶和鏈?zhǔn)酵评怼＿@樣它能在輸出動(dòng)作之前進(jìn)行解釋、預(yù)測(cè)并執(zhí)行長(zhǎng)遠(yuǎn)推理，真正實(shí)現(xiàn)代理司機(jī)的概念。

目前汽車自動(dòng)駕駛產(chǎn)業(yè)界，小鵬提起了類似VLA能力，但根據(jù)發(fā)布信息，這應(yīng)該是“期貨”、實(shí)驗(yàn)室和廣告信息，上車不會(huì)早于明年初。畢竟，長(zhǎng)推理、帶記憶的VLA面臨兩大問(wèn)題：車載大算力需求和CoT（思考鏈）推理延遲。

5.尾聲：基礎(chǔ)模型與世界模型

關(guān)注智能駕駛算法軟件發(fā)展的朋友，可能還聽(tīng)過(guò)兩個(gè)熱詞：“基礎(chǔ)模型（FM）”和“世界模型（WM）”。

基礎(chǔ)模型，你可以理解為VLA模型中多模態(tài)感知推理模塊的“母模型”。它最原始是在云端訓(xùn)練，基本都是科技大廠的東西，汽車行業(yè)應(yīng)用都是在此基礎(chǔ)上進(jìn)行微調(diào)和特殊化訓(xùn)練。例如，現(xiàn)在小鵬和理想的基座模型基本都采用了阿里的通義千問(wèn)。

具體，可以看三圖看懂自動(dòng)駕駛基礎(chǔ)模型 Foundation Models這篇

世界模型，本文中特斯拉和蔚來(lái)的NWM分別代表了世界模型的兩大作用：一是構(gòu)建物理虛擬世界用于仿真；二就是類似基礎(chǔ)模型用于智能駕駛算法。

具體可以看世界模型 World Model 101這篇

其實(shí)，這兩個(gè)詞都是為了方便宣傳和理解。它們的相同點(diǎn)都是通識(shí)大模型，能理解人類物理世界，并具備推理能力；不同點(diǎn)只是應(yīng)用和角度不一樣罷了。

最后縱觀自動(dòng)駕駛技術(shù)的發(fā)展歷程，我們清晰地看到了從模塊化設(shè)計(jì)的工程化探索，到端到端（E2E）學(xué)習(xí)的集成化突破，再到如今視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型所代表的具身智能新范式。當(dāng)前，我們正處于 VLA技術(shù)從實(shí)驗(yàn)室走向量產(chǎn)的早期階段，算力需求和推理延遲是亟待解決的實(shí)際問(wèn)題。然而，隨著英偉達(dá)等芯片廠商提供更強(qiáng)大的邊緣計(jì)算能力，以及蔚來(lái)、理想、小鵬等廠商的積極自研大算力芯片和探索，基于大語(yǔ)言模型的VLA有望成為下一代智能駕駛的核心驅(qū)動(dòng)力，真正將自動(dòng)駕駛汽車打造成為我們專屬的“AI司機(jī)”。

參考文章以及圖片

自動(dòng)駕駛視覺(jué)-語(yǔ)言-動(dòng)作模型綜述ppt版本和pdf版本 - 江思聰1 ＊、黃子林4 ＊、錢(qián)康安2 ＊、羅子昂2、朱天澤2、鐘陽(yáng)3、唐一紅1、孔夢(mèng)琳1、王云龍2、焦斯文3、葉浩 3 、盛子豪4、趙新2、托普溫2 、鄭富2、陳斯凱4、 Kun Jiang 2 , 6 , Diiange Yang 2 , 6 , Seongjin Choi 5 , Lijun Sun 1 1加拿大麥吉爾大學(xué) 2中國(guó)清華大學(xué) 3小米集團(tuán) 4美國(guó)威斯康星大學(xué)麥迪遜分校 5美國(guó)明尼蘇達(dá)大學(xué)雙城分校 6清華大學(xué)智能綠色汽車與出行國(guó)家重點(diǎn)實(shí)驗(yàn)室

原文標(biāo)題 : 不止E2E：AI大模型正開(kāi)啟自動(dòng)駕駛的“具身智能”時(shí)代

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

12月9日
立即報(bào)名>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
【深圳專場(chǎng)】
立即報(bào)名 >> 12月16-17日 AMD 嵌入式峰會(huì)
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 【評(píng)選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評(píng)選
精彩回顧
立即查看>> 【白皮書(shū)】精準(zhǔn)洞察無(wú)線掌控——283FC智能自檢萬(wàn)用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門(mén)市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本