訂閱
糾錯(cuò)
加入自媒體

為什么很多車企都青睞VLA模型?

就在最近,小鵬發(fā)布了第二代視覺(jué)—語(yǔ)言—動(dòng)作(VLA)模型。其實(shí)隨著自動(dòng)駕駛技術(shù)的發(fā)展,行業(yè)正處于從手工規(guī)則體系向物理世界大模型的深層跨越。早期的自動(dòng)駕駛方案高度依賴于模塊化的架構(gòu)設(shè)計(jì),將感知、預(yù)測(cè)與規(guī)劃拆分為獨(dú)立的環(huán)節(jié)。

但隨著行駛場(chǎng)景復(fù)雜度的增加,模塊間信息流失和規(guī)則局限導(dǎo)致的瓶頸日益凸顯。其實(shí)不僅僅是小鵬,理想、吉利等車企也都將VLA模型用于量產(chǎn)車,為何那么多車企都依賴VLA模型?

相較于模塊化,VLA有何優(yōu)勢(shì)?

傳統(tǒng)的自動(dòng)駕駛架構(gòu)采用級(jí)聯(lián)設(shè)計(jì)。傳感器采集數(shù)據(jù)后,由感知模塊進(jìn)行目標(biāo)檢測(cè)與語(yǔ)義分割,輸出物體標(biāo)簽;隨后,預(yù)測(cè)模塊計(jì)算周圍參與者的可能軌跡;規(guī)劃模塊再根據(jù)預(yù)設(shè)的數(shù)學(xué)模型生成車輛的行駛路線。

在這種模式下,任何前端感知的微小誤差都會(huì)在后續(xù)環(huán)節(jié)中被放大,且由于各模塊之間采用的是預(yù)定義的手工接口,系統(tǒng)很難捕捉到環(huán)境中微妙的非結(jié)構(gòu)化信息。

模塊化架構(gòu)示意圖,圖片源自:網(wǎng)絡(luò)

VLA模型的引入徹底改變了這一流程。視覺(jué)—語(yǔ)言—動(dòng)作模型(Vision-Language-Action,VLA)本質(zhì)上是一種端到端的智能系統(tǒng),它通過(guò)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)將多模態(tài)感知與高層邏輯推理、底層動(dòng)作執(zhí)行融為一體。

其核心價(jià)值是將原本相互獨(dú)立的感知模塊(看)、邏輯模塊(想)與執(zhí)行模塊(做)在同一個(gè)語(yǔ)義空間內(nèi)完成了對(duì)齊。與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)相比,VLA不僅能夠識(shí)別環(huán)境中的像素點(diǎn)或幾何結(jié)構(gòu),更能理解這些信號(hào)背后的語(yǔ)義邏輯。

VLA模型由視覺(jué)編碼器、大語(yǔ)言模型(LLM)骨干網(wǎng)絡(luò)以及動(dòng)作解碼器三個(gè)核心組件構(gòu)成。視覺(jué)編碼器將攝像頭采集的多視角圖像轉(zhuǎn)化為高維的特征向量,這些向量包含了環(huán)境的空間布局與物體特征;LLM骨干網(wǎng)絡(luò)則作為決策中心,利用預(yù)訓(xùn)練過(guò)程中積累的海量世界知識(shí)對(duì)視覺(jué)特征進(jìn)行邏輯加工;動(dòng)作解碼器則將這些抽象的推理結(jié)果轉(zhuǎn)化為如轉(zhuǎn)向角度、加減速數(shù)值等具體的物理動(dòng)作。

VLA架構(gòu)示意圖,圖片源自:網(wǎng)絡(luò)

這種一體化的映射方式使得系統(tǒng)能夠以一種更接近人類認(rèn)知的方式來(lái)處理駕駛?cè)蝿?wù)。在人類駕駛過(guò)程中,大腦并不會(huì)先在意識(shí)里標(biāo)出每一個(gè)行人的精確坐標(biāo)再進(jìn)行計(jì)算,而是基于對(duì)場(chǎng)景的整體理解(如“這個(gè)行人可能要過(guò)馬路”)直接產(chǎn)生避讓動(dòng)作。VLA模型通過(guò)共享的Transformer架構(gòu),對(duì)語(yǔ)言、視覺(jué)和動(dòng)作模態(tài)進(jìn)行協(xié)同編碼,構(gòu)建了統(tǒng)一的語(yǔ)義空間,實(shí)現(xiàn)了從感知理解到動(dòng)作決策的無(wú)縫銜接。

語(yǔ)言轉(zhuǎn)譯重要嗎?

看到諸多文章介紹小鵬第二代VLA模型時(shí),都提及其去掉了“語(yǔ)言轉(zhuǎn)譯”這一環(huán)節(jié),那語(yǔ)言轉(zhuǎn)譯到底有什么作用?對(duì)于自動(dòng)駕駛來(lái)說(shuō)重要嗎?

所謂語(yǔ)言轉(zhuǎn)譯,是指將視覺(jué)信號(hào)“翻譯”成自然語(yǔ)言描述(例如“前方路口有交警在指揮”),然后再根據(jù)這段文字描述推導(dǎo)出動(dòng)作指令。這種設(shè)計(jì)在早期是為了借用大語(yǔ)言模型的邏輯推理能力,但隨著技術(shù)向量產(chǎn)端推進(jìn),其弊端也愈發(fā)明顯。

自然語(yǔ)言雖然適合表達(dá)抽象邏輯,但在描述極其復(fù)雜的三維物理世界時(shí),其精度可能不足。將高維的、連續(xù)的視覺(jué)流壓縮成離散的文字標(biāo)簽,不可避免地會(huì)丟失大量的空間細(xì)節(jié)和運(yùn)動(dòng)趨勢(shì)。

此外,在VLA的訓(xùn)練中,研發(fā)人員需要為海量的視頻數(shù)據(jù)配上詳盡的人工旁白,告訴模型畫(huà)面中發(fā)生了什么,以及為什么要做這個(gè)動(dòng)作。這種“保姆式”的監(jiān)督學(xué)習(xí)不僅成本高昂,且標(biāo)注的速度遠(yuǎn)遠(yuǎn)無(wú)法滿足模型進(jìn)化的需求。

小鵬第二代VLA模型之所以拆掉語(yǔ)言這根“拐杖”,轉(zhuǎn)向了更極致的自監(jiān)督學(xué)習(xí)模式,是因?yàn)樵谶@種體系下,模型可以直接從原始視頻和真實(shí)的駕駛軌跡中學(xué)習(xí),只要有視頻輸入和對(duì)應(yīng)的物理動(dòng)作輸出,模型就能自主學(xué)習(xí)其中的因果關(guān)系,無(wú)需人工中間介入。

去語(yǔ)言化還可以大幅提升系統(tǒng)的實(shí)時(shí)性。在自動(dòng)駕駛中,毫秒級(jí)的延遲決定了安全性。VLA模型因?yàn)榇嬖诙嗖酵评恚ㄒ曈X(jué)->語(yǔ)言->動(dòng)作),計(jì)算鏈路長(zhǎng),有時(shí)難以滿足毫秒級(jí)的響應(yīng)要求。若將視覺(jué)信號(hào)直接映射為動(dòng)作,則可以消除中間解碼和生成的耗時(shí)。

為了實(shí)現(xiàn)這一目標(biāo),動(dòng)作的表征方式也將發(fā)生變化,將連續(xù)的軌跡預(yù)測(cè)轉(zhuǎn)化為離散的動(dòng)作Token,并整合進(jìn)大模型的詞表,是目前可行的路徑之一。通過(guò)這種方式,動(dòng)作生成就像語(yǔ)言預(yù)測(cè)下一個(gè)單詞一樣,能夠充分復(fù)用大模型已有的序列建模能力。

這種從“語(yǔ)言理解”向“物理直覺(jué)”的轉(zhuǎn)變,實(shí)際上是自動(dòng)駕駛向更高級(jí)智能形式的演化。它可以讓模型變成一個(gè)擁有多年駕齡、通過(guò)肌肉記憶進(jìn)行決策的老司機(jī)。

VLA的優(yōu)勢(shì)在哪里?

自動(dòng)駕駛的技術(shù)發(fā)展,已經(jīng)讓自動(dòng)駕駛系統(tǒng)在高速路或城市路段有了較好的表現(xiàn),現(xiàn)在最難處理的其實(shí)是“長(zhǎng)尾場(chǎng)景”。所謂長(zhǎng)尾,是指那些在正常行駛中極少出現(xiàn)、難以通過(guò)窮舉規(guī)則覆蓋的極端情況,像是馬路上突然出現(xiàn)的異形掉落物、復(fù)雜的施工路障、交警不規(guī)范的手勢(shì)指揮等都屬于長(zhǎng)尾場(chǎng)景。

在傳統(tǒng)架構(gòu)中,遇到此類未見(jiàn)過(guò)的場(chǎng)景,感知模塊可能會(huì)報(bào)錯(cuò),或者規(guī)控模塊會(huì)因?yàn)闆](méi)有匹配的規(guī)則而采取僵硬的緊急制動(dòng)。

VLA模型的優(yōu)勢(shì)在于它將“理解”引入駕駛決策;诖笠(guī)模預(yù)訓(xùn)練的大模型擁有強(qiáng)大的知識(shí)庫(kù)和情景理解能力。舉個(gè)例子,即便模型沒(méi)有在訓(xùn)練集中見(jiàn)過(guò)某種特定形狀的施工圍欄,但它通過(guò)在互聯(lián)網(wǎng)海量數(shù)據(jù)中學(xué)習(xí)到的通識(shí)知識(shí),能夠理解“紅白相間的物體通常代表障礙物”或者“身穿反光背心的人通常是工作人員”。

這種基于知識(shí)的決策模式,使得VLA能夠處理復(fù)雜的交互邏輯。在潮汐車道或無(wú)圖小路等場(chǎng)景下,VLA可以分析周圍車輛的意圖和環(huán)境的細(xì)微變化,做出更擬人化的規(guī)劃。它不會(huì)僅是避讓障礙物,而是能夠理解“此時(shí)前車減速可能是為了禮讓行人”,從而提前做出預(yù)判,避免了傳統(tǒng)系統(tǒng)常見(jiàn)的頻繁急剎或頓挫感。

VLA模型還具備“雙系統(tǒng)思維”的能力。它既能通過(guò)快速路徑實(shí)現(xiàn)類似于本能的駕駛反應(yīng)(快思考),也能在遇到極端復(fù)雜情況時(shí),調(diào)動(dòng)增強(qiáng)的推理邏輯進(jìn)行深度分析(慢思考)。這種靈活性確保了系統(tǒng)在保證效率的同時(shí),擁有處理高難度決策的上限。

為了解決長(zhǎng)尾數(shù)據(jù)的稀缺性,有些技術(shù)方案還引入了“世界模型”(World Models)。世界模型可以被看作是自動(dòng)駕駛系統(tǒng)的“模擬大腦”,它能夠預(yù)測(cè)動(dòng)作對(duì)未來(lái)的影響,并仿真出大量極端的、在現(xiàn)實(shí)中難以收集的危險(xiǎn)場(chǎng)景進(jìn)行自我訓(xùn)練。VLA與世界模型的結(jié)合,可以讓自動(dòng)駕駛從“在現(xiàn)實(shí)中試錯(cuò)”轉(zhuǎn)向“在想象中進(jìn)化”。

這種能力的提升,意味著自動(dòng)駕駛系統(tǒng)正在從一個(gè)“稱職的司機(jī)”向“智慧的駕駛專家”轉(zhuǎn)變。VLA不僅解決了“怎么開(kāi)”的問(wèn)題,更在底層邏輯上解決了“為什么這么開(kāi)”的理解問(wèn)題。

VLA落地的難點(diǎn)在哪里?

大模型一般需要擁有數(shù)十億甚至數(shù)百億的參數(shù),要在車載嵌入式平臺(tái)上實(shí)現(xiàn)毫秒級(jí)的推理響應(yīng),需要非常多的工程優(yōu)化。

混合專家架構(gòu)(MoE)可以將模型拆分為多個(gè)專業(yè)領(lǐng)域的小模塊,在每一時(shí)刻僅激活最相關(guān)的部分專家,可以在不犧牲模型容量的前提下,大幅降低推理時(shí)的計(jì)算量。理想就將32B的大模型蒸餾為3.2B的MoE架構(gòu),成功部署在Thor芯片上。

推理步數(shù)的壓縮也很關(guān)鍵,傳統(tǒng)的路徑生成需要多次迭代(如Diffusion模型),而通過(guò)引入流匹配(Flow Matching)等算法,可以將原本10步的推理過(guò)程壓縮至2步甚至1步,從而在10Hz的幀率下實(shí)現(xiàn)完整的交互響應(yīng)。此外,混合精度推理(如INT8/FP8/FP4)和底層算子魔改,也可以進(jìn)一步利用硬件的有效性能。

雖然VLA模型作為“大腦”負(fù)責(zé)復(fù)雜的認(rèn)知決策,但行業(yè)普遍共識(shí)是需要保留一個(gè)經(jīng)過(guò)嚴(yán)格驗(yàn)證的傳統(tǒng)控制系統(tǒng)作為“安全基座”。這種混合架構(gòu)確保了即使大模型在某些罕見(jiàn)情況下出現(xiàn)幻覺(jué)或推理錯(cuò)誤,底層的安全網(wǎng)也能守住最后一道防線。

最后的話

VLA的普及標(biāo)志著自動(dòng)駕駛數(shù)據(jù)競(jìng)爭(zhēng)重心的轉(zhuǎn)移。以前,企業(yè)比拼的是人工標(biāo)注的數(shù)據(jù)量;而現(xiàn)在,競(jìng)爭(zhēng)的核心變成了算力儲(chǔ)備、世界模型的仿真效率以及對(duì)大規(guī)模無(wú)標(biāo)簽視頻數(shù)據(jù)的利用能力。

VLA從邏輯理解到物理行動(dòng)的閉環(huán),不僅加速了端到端技術(shù)的成熟,也讓自動(dòng)駕駛系統(tǒng)距離真正的“擬人化”更近了一步。隨著算法、算力和數(shù)據(jù)三要素的持續(xù)提升,基于VLA架構(gòu)的物理人工智能將在更廣泛的移動(dòng)場(chǎng)景中展現(xiàn)其價(jià)值,重塑未來(lái)出行的安全與效率標(biāo)準(zhǔn)。

-- END --

       原文標(biāo)題 : 為什么很多車企都青睞VLA模型?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)