訂閱
糾錯
加入自媒體

揭秘小鵬自動駕駛「基座模型」和 「VLA大模型」

2025-09-12 13:48
vehicle公眾號
關注

2025年的CVPR自動駕駛 Workshop上,小鵬汽車的Liu Xianming先生做了一篇名為《Scaling up Autonomous Driving via Large Foundation Models》的演講。

之前,網絡上有不少小鵬此次CVPR的 VLA演講信息,但那些是別人想讓你看到的廣告推文。本文根據Liu Xianming的演講內容,深度挖掘小鵬輔助駕駛/自動駕駛“基礎模型”和VLA大模型的方法論。

提出基礎模型的概念

開頭Liu Xianming先生引用特斯拉前人工智能總監(jiān)、OpenAI 研究員 Andrej Karpathy提出的軟件時代三階段概念(具體可以點擊之前文章《特斯拉前人工智能負責人 Andrej Karpathy最新演講談 AI和 LLM》分享的內容),引出小鵬VLA的基礎模型概念。

自動駕駛軟件1.0模型時代就是十年前,大家都在忙于T字形路口等場景,主要依賴于點云和CPU上的集群處理來檢測障礙物,并編寫大量硬編碼的啟發(fā)式規(guī)則來進行操控。在這種情況下,整個棧是由簡單的規(guī)則定義的時代。

大約六七年前軟件2.0開始,隨著檢測和視覺技術越來越成熟,人們開始用機器學習模型替換感知和預測部分。但大部分棧仍然包含硬編碼規(guī)則。

現在就是3.0時代了,稱之為“AI模型即軟件”。自動駕駛可以用數據迭代軟件,這個時候整個軟件轉換為AI模型,并基于以數據為中心的方法進行迭代。

Liu Xianming表示,目前,小鵬正處于將整個自動駕駛軟件棧構建為端到端AI模型來駕駛汽車的階段。

下一階段,Xianming表示他們需要探索未來如何發(fā)展,基于“規(guī)模定律”(scaling law)。但 scaling law要的是大量的數據,但小鵬表示對于自動駕駛領域,他們并不受數據限制,因為小鵬可以每天從數十萬輛真實世界的車輛中收集大量數據。

所以,小鵬將利用這些數據訓練一個非常大的視覺模型,作為“工廠”。一旦有了這個模型,就可以將其蒸餾到較小的硬件上,部署到車輛中。

小鵬將這個原型定義為“軟件3.0”,總體的概念是,大數據構建一個基礎模型,就可以不要管三維空間中的先驗知識和空間問題,這又有點像世界模型的概念,然后可以將這個模型部署到車端。

當然這里涉及到深度裁剪、量化、蒸餾基礎模型,使模型能在更小的車端硬件上部署。這是小鵬對下一代自動駕駛的理念。

內外循環(huán),實現自動駕駛

有了基礎模型這個理論基礎之后,小鵬創(chuàng)建了一個“內循環(huán)”概念,為每個模型創(chuàng)建訓練流,便于擴展數據,然后進行再訓練和SFT(監(jiān)督微調)以持續(xù)提升模型性能。最后,將基礎模型進行蒸餾,將模型壓縮成更小的版本并部署到汽車中。

“外循環(huán)”,就是數據驅動,一旦將模型部署到設備上,數十萬輛車就成為現實世界中的數據采樣器,持續(xù)采樣數據進行訓練。

這個外循環(huán)即根據返回數據持續(xù)訓練,或者有些人稱之為“協同訓練”(co-training)。不斷地重復這個過程,直到性能足夠好以達到L4級自動駕駛。

這幾天何小鵬在IAA 2025慕尼黑車展(了解2025慕尼黑車展點擊《IAA 2025 慕尼黑車展:中國汽車軍團們,從“貿易出口”到“勢不可擋”》)上也表示力爭在2026年實現L4級智駕車型量產,估計也是基于這個方法論的基礎。

模型訓練方法

眼尖的朋友從演講PPT中可以看到,小鵬在上半年是奔著 VLA模型架構的方向跑的。

所以這個模型的訓練方法就是

首先是拿一個 VLM模型,其實行業(yè)內都清楚基本上這個原始的 VLM模型就是阿里的Qwen。

然后基于這個模型,采用小鵬整理的駕駛數據進行預訓練、對齊,也就是視覺模型的預訓練。

下圖就是小鵬數據分類好的預訓練數據,可以看出將交通數據分為:

靜態(tài)交通元素,例如道路

動態(tài)交通參與者,車等

點到點的軌跡數據

占用,應該是用來訓Occ網絡的數據

交通燈 TSL,交通信號燈

交通流 TFL,車流信息

下面就是交通流 TFL的數據舉例子,可用看到圖片信息基本上就是把交通信息語意化,也就是這個圖片在交通場景中代表啥意思。

有了對交通流的理解,下一步就是CoT(Chain-of-Thought 思維鏈),基于對場景流的理解進行思維推理,小鵬做了四步:

對齊,提供基本駕駛知識,例如紅燈停

CoT SFT(監(jiān)督訓練)。

強化學習CoT。

考慮延遲的CoT SFT。

最后一點是,所有的思維鏈最后的結果都是要輸出動作。動作不是某種語言或文本輸出,而是以“動作token”的形式描述。小鵬將動作分解為縱向動作和橫向動作,包括加速、停止等

最終VLM識別場景,推理,產生出車輛運動的動作。

所以,可以認為這個預訓練就是對通用的 VLM進行專業(yè)的交通訓練,讓模型輸入視圖,輸出動作,訓練出一個小鵬智能輔助駕駛可用的 VLA模型。

第二部分,有了基本的動作訓練之后就是監(jiān)督微調(Supervised Fine-tuning, SFT)。因為深度學習只處理數據的統計均值。但開車有很多專用指令,例如導航,或者進行非常舒適的剎車。所以小鵬將SFT建模為一種“指令遵循”任務。整理和篩選出Good case 好數據,用這些數據進行專門指令訓練。這個部分基本就輸出了一個可用的VLA模型。

之后是后期訓練(post-training),這是針對指令跟隨或指令反射的微調函數。主要解決的事長尾案例,采用的方法是強化學習。

強化學習就是建立一個獎勵模型,然后進行獎勵,讓模型都遵循相同的行動。最終,對于自動駕駛來說,強化學習使得駕駛更安全。為了更安全地駕駛,小鵬設計了三個獎勵:安全,不碰撞;其次是效率,不卡殼,最后是合規(guī)也就是遵守交通規(guī)則,比如交通燈。

最終經過總體的三個階段,從VLM對齊預訓練,到VLM+動作和進行監(jiān)督微調形成可用的VLA,最后進行獎懲強化學習生成可用的VLA。

寫在最后

小鵬輔助駕駛/自動駕駛的思路是在云端構建一個 VLA的基礎模型,然后進行蒸餾剪枝和微調訓練部署到車端。

其實這個論文透露了兩個思路,一個是基礎模型蒸餾上車的思路,這個思路應該比較妙,可以加速開發(fā)和快速不同算力平臺部署,但前提條件是要有大算力和高質量的數據。

另外一個思路是VLA,VLA的概念真的很濫了,通過本文看就是VLA的開頭肯定是要有一個基礎成熟的LLM作為底座,然后基于他去針對交通駕駛行為訓。

其實這兩個思路對于自動駕駛行業(yè)來講,透露的是底層算法和架構都相通,唯一拉開大家差距的是高質量數據,大算力以及強大算法產品化和工程落地能力。

*未經準許嚴禁轉載和摘錄-

       原文標題 : 揭秘小鵬自動駕駛「基座模型」和 「VLA大模型」

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號