123,123

<tt id="zrc2v"></tt>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語(yǔ)言處理 > 正文

為什么很多車企都青睞VLA模型？

2026-03-04 10:44

智駕最前沿

就在最近，小鵬發(fā)布了第二代視覺(jué)—語(yǔ)言—動(dòng)作（VLA）模型。其實(shí)隨著自動(dòng)駕駛技術(shù)的發(fā)展，行業(yè)正處于從手工規(guī)則體系向物理世界大模型的深層跨越。早期的自動(dòng)駕駛方案高度依賴于模塊化的架構(gòu)設(shè)計(jì)，將感知、預(yù)測(cè)與規(guī)劃拆分為獨(dú)立的環(huán)節(jié)。

但隨著行駛場(chǎng)景復(fù)雜度的增加，模塊間信息流失和規(guī)則局限導(dǎo)致的瓶頸日益凸顯。其實(shí)不僅僅是小鵬，理想、吉利等車企也都將VLA模型用于量產(chǎn)車，為何那么多車企都依賴VLA模型？

相較于模塊化，VLA有何優(yōu)勢(shì)？

傳統(tǒng)的自動(dòng)駕駛架構(gòu)采用級(jí)聯(lián)設(shè)計(jì)。傳感器采集數(shù)據(jù)后，由感知模塊進(jìn)行目標(biāo)檢測(cè)與語(yǔ)義分割，輸出物體標(biāo)簽；隨后，預(yù)測(cè)模塊計(jì)算周圍參與者的可能軌跡；規(guī)劃模塊再根據(jù)預(yù)設(shè)的數(shù)學(xué)模型生成車輛的行駛路線。

在這種模式下，任何前端感知的微小誤差都會(huì)在后續(xù)環(huán)節(jié)中被放大，且由于各模塊之間采用的是預(yù)定義的手工接口，系統(tǒng)很難捕捉到環(huán)境中微妙的非結(jié)構(gòu)化信息。

模塊化架構(gòu)示意圖，圖片源自：網(wǎng)絡(luò)

VLA模型的引入徹底改變了這一流程。視覺(jué)—語(yǔ)言—動(dòng)作模型（Vision-Language-Action,VLA）本質(zhì)上是一種端到端的智能系統(tǒng)，它通過(guò)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)將多模態(tài)感知與高層邏輯推理、底層動(dòng)作執(zhí)行融為一體。

其核心價(jià)值是將原本相互獨(dú)立的感知模塊（看）、邏輯模塊（想）與執(zhí)行模塊（做）在同一個(gè)語(yǔ)義空間內(nèi)完成了對(duì)齊。與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)相比，VLA不僅能夠識(shí)別環(huán)境中的像素點(diǎn)或幾何結(jié)構(gòu)，更能理解這些信號(hào)背后的語(yǔ)義邏輯。

VLA模型由視覺(jué)編碼器、大語(yǔ)言模型（LLM）骨干網(wǎng)絡(luò)以及動(dòng)作解碼器三個(gè)核心組件構(gòu)成。視覺(jué)編碼器將攝像頭采集的多視角圖像轉(zhuǎn)化為高維的特征向量，這些向量包含了環(huán)境的空間布局與物體特征；LLM骨干網(wǎng)絡(luò)則作為決策中心，利用預(yù)訓(xùn)練過(guò)程中積累的海量世界知識(shí)對(duì)視覺(jué)特征進(jìn)行邏輯加工；動(dòng)作解碼器則將這些抽象的推理結(jié)果轉(zhuǎn)化為如轉(zhuǎn)向角度、加減速數(shù)值等具體的物理動(dòng)作。

VLA架構(gòu)示意圖，圖片源自：網(wǎng)絡(luò)

這種一體化的映射方式使得系統(tǒng)能夠以一種更接近人類認(rèn)知的方式來(lái)處理駕駛?cè)蝿?wù)。在人類駕駛過(guò)程中，大腦并不會(huì)先在意識(shí)里標(biāo)出每一個(gè)行人的精確坐標(biāo)再進(jìn)行計(jì)算，而是基于對(duì)場(chǎng)景的整體理解（如“這個(gè)行人可能要過(guò)馬路”）直接產(chǎn)生避讓動(dòng)作。VLA模型通過(guò)共享的Transformer架構(gòu)，對(duì)語(yǔ)言、視覺(jué)和動(dòng)作模態(tài)進(jìn)行協(xié)同編碼，構(gòu)建了統(tǒng)一的語(yǔ)義空間，實(shí)現(xiàn)了從感知理解到動(dòng)作決策的無(wú)縫銜接。

語(yǔ)言轉(zhuǎn)譯重要嗎？

看到諸多文章介紹小鵬第二代VLA模型時(shí)，都提及其去掉了“語(yǔ)言轉(zhuǎn)譯”這一環(huán)節(jié)，那語(yǔ)言轉(zhuǎn)譯到底有什么作用？對(duì)于自動(dòng)駕駛來(lái)說(shuō)重要嗎？

所謂語(yǔ)言轉(zhuǎn)譯，是指將視覺(jué)信號(hào)“翻譯”成自然語(yǔ)言描述（例如“前方路口有交警在指揮”），然后再根據(jù)這段文字描述推導(dǎo)出動(dòng)作指令。這種設(shè)計(jì)在早期是為了借用大語(yǔ)言模型的邏輯推理能力，但隨著技術(shù)向量產(chǎn)端推進(jìn)，其弊端也愈發(fā)明顯。

自然語(yǔ)言雖然適合表達(dá)抽象邏輯，但在描述極其復(fù)雜的三維物理世界時(shí)，其精度可能不足。將高維的、連續(xù)的視覺(jué)流壓縮成離散的文字標(biāo)簽，不可避免地會(huì)丟失大量的空間細(xì)節(jié)和運(yùn)動(dòng)趨勢(shì)。

此外，在VLA的訓(xùn)練中，研發(fā)人員需要為海量的視頻數(shù)據(jù)配上詳盡的人工旁白，告訴模型畫(huà)面中發(fā)生了什么，以及為什么要做這個(gè)動(dòng)作。這種“保姆式”的監(jiān)督學(xué)習(xí)不僅成本高昂，且標(biāo)注的速度遠(yuǎn)遠(yuǎn)無(wú)法滿足模型進(jìn)化的需求。

小鵬第二代VLA模型之所以拆掉語(yǔ)言這根“拐杖”，轉(zhuǎn)向了更極致的自監(jiān)督學(xué)習(xí)模式，是因?yàn)樵谶@種體系下，模型可以直接從原始視頻和真實(shí)的駕駛軌跡中學(xué)習(xí)，只要有視頻輸入和對(duì)應(yīng)的物理動(dòng)作輸出，模型就能自主學(xué)習(xí)其中的因果關(guān)系，無(wú)需人工中間介入。

去語(yǔ)言化還可以大幅提升系統(tǒng)的實(shí)時(shí)性。在自動(dòng)駕駛中，毫秒級(jí)的延遲決定了安全性。VLA模型因?yàn)榇嬖诙嗖酵评恚ㄒ曈X(jué)->語(yǔ)言->動(dòng)作），計(jì)算鏈路長(zhǎng)，有時(shí)難以滿足毫秒級(jí)的響應(yīng)要求。若將視覺(jué)信號(hào)直接映射為動(dòng)作，則可以消除中間解碼和生成的耗時(shí)。

為了實(shí)現(xiàn)這一目標(biāo)，動(dòng)作的表征方式也將發(fā)生變化，將連續(xù)的軌跡預(yù)測(cè)轉(zhuǎn)化為離散的動(dòng)作Token，并整合進(jìn)大模型的詞表，是目前可行的路徑之一。通過(guò)這種方式，動(dòng)作生成就像語(yǔ)言預(yù)測(cè)下一個(gè)單詞一樣，能夠充分復(fù)用大模型已有的序列建模能力。

這種從“語(yǔ)言理解”向“物理直覺(jué)”的轉(zhuǎn)變，實(shí)際上是自動(dòng)駕駛向更高級(jí)智能形式的演化。它可以讓模型變成一個(gè)擁有多年駕齡、通過(guò)肌肉記憶進(jìn)行決策的老司機(jī)。

VLA的優(yōu)勢(shì)在哪里？

自動(dòng)駕駛的技術(shù)發(fā)展，已經(jīng)讓自動(dòng)駕駛系統(tǒng)在高速路或城市路段有了較好的表現(xiàn)，現(xiàn)在最難處理的其實(shí)是“長(zhǎng)尾場(chǎng)景”。所謂長(zhǎng)尾，是指那些在正常行駛中極少出現(xiàn)、難以通過(guò)窮舉規(guī)則覆蓋的極端情況，像是馬路上突然出現(xiàn)的異形掉落物、復(fù)雜的施工路障、交警不規(guī)范的手勢(shì)指揮等都屬于長(zhǎng)尾場(chǎng)景。

在傳統(tǒng)架構(gòu)中，遇到此類未見(jiàn)過(guò)的場(chǎng)景，感知模塊可能會(huì)報(bào)錯(cuò)，或者規(guī)控模塊會(huì)因?yàn)闆](méi)有匹配的規(guī)則而采取僵硬的緊急制動(dòng)。

VLA模型的優(yōu)勢(shì)在于它將“理解”引入駕駛決策�；诖笠�(guī)模預(yù)訓(xùn)練的大模型擁有強(qiáng)大的知識(shí)庫(kù)和情景理解能力。舉個(gè)例子，即便模型沒(méi)有在訓(xùn)練集中見(jiàn)過(guò)某種特定形狀的施工圍欄，但它通過(guò)在互聯(lián)網(wǎng)海量數(shù)據(jù)中學(xué)習(xí)到的通識(shí)知識(shí)，能夠理解“紅白相間的物體通常代表障礙物”或者“身穿反光背心的人通常是工作人員”。

這種基于知識(shí)的決策模式，使得VLA能夠處理復(fù)雜的交互邏輯。在潮汐車道或無(wú)圖小路等場(chǎng)景下，VLA可以分析周圍車輛的意圖和環(huán)境的細(xì)微變化，做出更擬人化的規(guī)劃。它不會(huì)僅是避讓障礙物，而是能夠理解“此時(shí)前車減速可能是為了禮讓行人”，從而提前做出預(yù)判，避免了傳統(tǒng)系統(tǒng)常見(jiàn)的頻繁急剎或頓挫感。

VLA模型還具備“雙系統(tǒng)思維”的能力。它既能通過(guò)快速路徑實(shí)現(xiàn)類似于本能的駕駛反應(yīng)（快思考），也能在遇到極端復(fù)雜情況時(shí)，調(diào)動(dòng)增強(qiáng)的推理邏輯進(jìn)行深度分析（慢思考）。這種靈活性確保了系統(tǒng)在保證效率的同時(shí)，擁有處理高難度決策的上限。

為了解決長(zhǎng)尾數(shù)據(jù)的稀缺性，有些技術(shù)方案還引入了“世界模型”（World Models）。世界模型可以被看作是自動(dòng)駕駛系統(tǒng)的“模擬大腦”，它能夠預(yù)測(cè)動(dòng)作對(duì)未來(lái)的影響，并仿真出大量極端的、在現(xiàn)實(shí)中難以收集的危險(xiǎn)場(chǎng)景進(jìn)行自我訓(xùn)練。VLA與世界模型的結(jié)合，可以讓自動(dòng)駕駛從“在現(xiàn)實(shí)中試錯(cuò)”轉(zhuǎn)向“在想象中進(jìn)化”。

這種能力的提升，意味著自動(dòng)駕駛系統(tǒng)正在從一個(gè)“稱職的司機(jī)”向“智慧的駕駛專家”轉(zhuǎn)變。VLA不僅解決了“怎么開(kāi)”的問(wèn)題，更在底層邏輯上解決了“為什么這么開(kāi)”的理解問(wèn)題。

VLA落地的難點(diǎn)在哪里？

大模型一般需要擁有數(shù)十億甚至數(shù)百億的參數(shù)，要在車載嵌入式平臺(tái)上實(shí)現(xiàn)毫秒級(jí)的推理響應(yīng)，需要非常多的工程優(yōu)化。

混合專家架構(gòu)（MoE）可以將模型拆分為多個(gè)專業(yè)領(lǐng)域的小模塊，在每一時(shí)刻僅激活最相關(guān)的部分專家，可以在不犧牲模型容量的前提下，大幅降低推理時(shí)的計(jì)算量。理想就將32B的大模型蒸餾為3.2B的MoE架構(gòu)，成功部署在Thor芯片上。

推理步數(shù)的壓縮也很關(guān)鍵，傳統(tǒng)的路徑生成需要多次迭代（如Diffusion模型），而通過(guò)引入流匹配（Flow Matching）等算法，可以將原本10步的推理過(guò)程壓縮至2步甚至1步，從而在10Hz的幀率下實(shí)現(xiàn)完整的交互響應(yīng)。此外，混合精度推理（如INT8/FP8/FP4）和底層算子魔改，也可以進(jìn)一步利用硬件的有效性能。

雖然VLA模型作為“大腦”負(fù)責(zé)復(fù)雜的認(rèn)知決策，但行業(yè)普遍共識(shí)是需要保留一個(gè)經(jīng)過(guò)嚴(yán)格驗(yàn)證的傳統(tǒng)控制系統(tǒng)作為“安全基座”。這種混合架構(gòu)確保了即使大模型在某些罕見(jiàn)情況下出現(xiàn)幻覺(jué)或推理錯(cuò)誤，底層的安全網(wǎng)也能守住最后一道防線。

最后的話

VLA的普及標(biāo)志著自動(dòng)駕駛數(shù)據(jù)競(jìng)爭(zhēng)重心的轉(zhuǎn)移。以前，企業(yè)比拼的是人工標(biāo)注的數(shù)據(jù)量；而現(xiàn)在，競(jìng)爭(zhēng)的核心變成了算力儲(chǔ)備、世界模型的仿真效率以及對(duì)大規(guī)模無(wú)標(biāo)簽視頻數(shù)據(jù)的利用能力。

VLA從邏輯理解到物理行動(dòng)的閉環(huán)，不僅加速了端到端技術(shù)的成熟，也讓自動(dòng)駕駛系統(tǒng)距離真正的“擬人化”更近了一步。隨著算法、算力和數(shù)據(jù)三要素的持續(xù)提升，基于VLA架構(gòu)的物理人工智能將在更廣泛的移動(dòng)場(chǎng)景中展現(xiàn)其價(jià)值，重塑未來(lái)出行的安全與效率標(biāo)準(zhǔn)。

-- END --

原文標(biāo)題 : 為什么很多車企都青睞VLA模型？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7