123,123,123

<delect id="99k4j"></delect>

<source id="99k4j"><b id="99k4j"></b></source>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計算機視覺 > 正文

揭秘小鵬自動駕駛「基座模型」和「VLA大模型」

2025-09-12 13:48

vehicle公眾號

2025年的CVPR自動駕駛 Workshop上，小鵬汽車的Liu Xianming先生做了一篇名為《Scaling up Autonomous Driving via Large Foundation Models》的演講。

之前，網(wǎng)絡(luò)上有不少小鵬此次CVPR的 VLA演講信息，但那些是別人想讓你看到的廣告推文。本文根據(jù)Liu Xianming的演講內(nèi)容，深度挖掘小鵬輔助駕駛/自動駕駛“基礎(chǔ)模型”和VLA大模型的方法論。

提出基礎(chǔ)模型的概念

開頭Liu Xianming先生引用特斯拉前人工智能總監(jiān)、OpenAI 研究員 Andrej Karpathy提出的軟件時代三階段概念（具體可以點擊之前文章《特斯拉前人工智能負責(zé)人 Andrej Karpathy最新演講談 AI和 LLM》分享的內(nèi)容），引出小鵬VLA的基礎(chǔ)模型概念。

自動駕駛軟件1.0模型時代就是十年前，大家都在忙于T字形路口等場景，主要依賴于點云和CPU上的集群處理來檢測障礙物，并編寫大量硬編碼的啟發(fā)式規(guī)則來進行操控。在這種情況下，整個棧是由簡單的規(guī)則定義的時代。

大約六七年前軟件2.0開始，隨著檢測和視覺技術(shù)越來越成熟，人們開始用機器學(xué)習(xí)模型替換感知和預(yù)測部分。但大部分棧仍然包含硬編碼規(guī)則。

現(xiàn)在就是3.0時代了，稱之為“AI模型即軟件”。自動駕駛可以用數(shù)據(jù)迭代軟件，這個時候整個軟件轉(zhuǎn)換為AI模型，并基于以數(shù)據(jù)為中心的方法進行迭代。

Liu Xianming表示，目前，小鵬正處于將整個自動駕駛軟件棧構(gòu)建為端到端AI模型來駕駛汽車的階段。

下一階段，Xianming表示他們需要探索未來如何發(fā)展，基于“規(guī)模定律”（scaling law）。但 scaling law要的是大量的數(shù)據(jù)，但小鵬表示對于自動駕駛領(lǐng)域，他們并不受數(shù)據(jù)限制，因為小鵬可以每天從數(shù)十萬輛真實世界的車輛中收集大量數(shù)據(jù)。

所以，小鵬將利用這些數(shù)據(jù)訓(xùn)練一個非常大的視覺模型，作為“工廠”。一旦有了這個模型，就可以將其蒸餾到較小的硬件上，部署到車輛中。

小鵬將這個原型定義為“軟件3.0”，總體的概念是，大數(shù)據(jù)構(gòu)建一個基礎(chǔ)模型，就可以不要管三維空間中的先驗知識和空間問題，這又有點像世界模型的概念，然后可以將這個模型部署到車端。

當(dāng)然這里涉及到深度裁剪、量化、蒸餾基礎(chǔ)模型，使模型能在更小的車端硬件上部署。這是小鵬對下一代自動駕駛的理念。

內(nèi)外循環(huán)，實現(xiàn)自動駕駛

有了基礎(chǔ)模型這個理論基礎(chǔ)之后，小鵬創(chuàng)建了一個“內(nèi)循環(huán)”概念，為每個模型創(chuàng)建訓(xùn)練流，便于擴展數(shù)據(jù)，然后進行再訓(xùn)練和SFT（監(jiān)督微調(diào)）以持續(xù)提升模型性能。最后，將基礎(chǔ)模型進行蒸餾，將模型壓縮成更小的版本并部署到汽車中。

“外循環(huán)”，就是數(shù)據(jù)驅(qū)動，一旦將模型部署到設(shè)備上，數(shù)十萬輛車就成為現(xiàn)實世界中的數(shù)據(jù)采樣器，持續(xù)采樣數(shù)據(jù)進行訓(xùn)練。

這個外循環(huán)即根據(jù)返回數(shù)據(jù)持續(xù)訓(xùn)練，或者有些人稱之為“協(xié)同訓(xùn)練”（co-training）。不斷地重復(fù)這個過程，直到性能足夠好以達到L4級自動駕駛。

這幾天何小鵬在IAA 2025慕尼黑車展（了解2025慕尼黑車展點擊《IAA 2025 慕尼黑車展：中國汽車軍團們，從“貿(mào)易出口”到“勢不可擋”》）上也表示力爭在2026年實現(xiàn)L4級智駕車型量產(chǎn)，估計也是基于這個方法論的基礎(chǔ)。

模型訓(xùn)練方法

眼尖的朋友從演講PPT中可以看到，小鵬在上半年是奔著 VLA模型架構(gòu)的方向跑的。

所以這個模型的訓(xùn)練方法就是

首先是拿一個 VLM模型，其實行業(yè)內(nèi)都清楚基本上這個原始的 VLM模型就是阿里的Qwen。

然后基于這個模型，采用小鵬整理的駕駛數(shù)據(jù)進行預(yù)訓(xùn)練、對齊，也就是視覺模型的預(yù)訓(xùn)練。

下圖就是小鵬數(shù)據(jù)分類好的預(yù)訓(xùn)練數(shù)據(jù)，可以看出將交通數(shù)據(jù)分為：

靜態(tài)交通元素，例如道路

動態(tài)交通參與者，車等

點到點的軌跡數(shù)據(jù)

占用，應(yīng)該是用來訓(xùn)Occ網(wǎng)絡(luò)的數(shù)據(jù)

交通燈 TSL，交通信號燈

交通流 TFL，車流信息

下面就是交通流 TFL的數(shù)據(jù)舉例子，可用看到圖片信息基本上就是把交通信息語意化，也就是這個圖片在交通場景中代表啥意思。

有了對交通流的理解，下一步就是CoT（Chain-of-Thought 思維鏈），基于對場景流的理解進行思維推理，小鵬做了四步：

對齊,提供基本駕駛知識，例如紅燈停

CoT SFT（監(jiān)督訓(xùn)練）。

強化學(xué)習(xí)CoT。

考慮延遲的CoT SFT。

最后一點是，所有的思維鏈最后的結(jié)果都是要輸出動作。動作不是某種語言或文本輸出，而是以“動作token”的形式描述。小鵬將動作分解為縱向動作和橫向動作，包括加速、停止等

最終VLM識別場景，推理，產(chǎn)生出車輛運動的動作。

所以，可以認為這個預(yù)訓(xùn)練就是對通用的 VLM進行專業(yè)的交通訓(xùn)練,讓模型輸入視圖，輸出動作，訓(xùn)練出一個小鵬智能輔助駕駛可用的 VLA模型。

第二部分，有了基本的動作訓(xùn)練之后就是監(jiān)督微調(diào)（Supervised Fine-tuning, SFT）。因為深度學(xué)習(xí)只處理數(shù)據(jù)的統(tǒng)計均值。但開車有很多專用指令，例如導(dǎo)航，或者進行非常舒適的剎車。所以小鵬將SFT建模為一種“指令遵循”任務(wù)。整理和篩選出Good case 好數(shù)據(jù)，用這些數(shù)據(jù)進行專門指令訓(xùn)練。這個部分基本就輸出了一個可用的VLA模型。

之后是后期訓(xùn)練（post-training），這是針對指令跟隨或指令反射的微調(diào)函數(shù)。主要解決的事長尾案例，采用的方法是強化學(xué)習(xí)。

強化學(xué)習(xí)就是建立一個獎勵模型，然后進行獎勵，讓模型都遵循相同的行動。最終，對于自動駕駛來說，強化學(xué)習(xí)使得駕駛更安全。為了更安全地駕駛，小鵬設(shè)計了三個獎勵：安全，不碰撞；其次是效率，不卡殼，最后是合規(guī)也就是遵守交通規(guī)則，比如交通燈。

最終經(jīng)過總體的三個階段，從VLM對齊預(yù)訓(xùn)練，到VLM+動作和進行監(jiān)督微調(diào)形成可用的VLA，最后進行獎懲強化學(xué)習(xí)生成可用的VLA。

寫在最后

小鵬輔助駕駛/自動駕駛的思路是在云端構(gòu)建一個 VLA的基礎(chǔ)模型，然后進行蒸餾剪枝和微調(diào)訓(xùn)練部署到車端。

其實這個論文透露了兩個思路，一個是基礎(chǔ)模型蒸餾上車的思路，這個思路應(yīng)該比較妙，可以加速開發(fā)和快速不同算力平臺部署，但前提條件是要有大算力和高質(zhì)量的數(shù)據(jù)。

另外一個思路是VLA，VLA的概念真的很濫了，通過本文看就是VLA的開頭肯定是要有一個基礎(chǔ)成熟的LLM作為底座，然后基于他去針對交通駕駛行為訓(xùn)。

其實這兩個思路對于自動駕駛行業(yè)來講，透露的是底層算法和架構(gòu)都相通，唯一拉開大家差距的是高質(zhì)量數(shù)據(jù)，大算力以及強大算法產(chǎn)品化和工程落地能力。

*未經(jīng)準(zhǔn)許嚴禁轉(zhuǎn)載和摘錄-

原文標(biāo)題 : 揭秘小鵬自動駕駛「基座模型」和「VLA大模型」

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
4月17日
立即報名 >> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7

<acronym id="ip0a3"><button id="ip0a3"><sup id="ip0a3"></sup></button></acronym>

<dl id="ip0a3"></dl>