123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

從“模仿”走向“思考”：VLA司機(jī)大模型帶來的變化

2025-07-31 13:54

芝能智芯出品

VLA（Vision-Language-Action）駕駛大模型是理想汽車在2025年八月即將實現(xiàn)重要落地的輔助駕駛。

不同于第一代的結(jié)構(gòu)化算法和第二代的端到端系統(tǒng)，采用了新的視覺-語言-行為的多模態(tài)架構(gòu)，使得車輛可以同時理解空間地理、語言意圖和行為合理性，實現(xiàn)更好的出行體驗。

Part 1 VLA模型結(jié)構(gòu)

VLA架構(gòu)的本質(zhì)，是在原端到端 VA（Vision-Action）模型基礎(chǔ)上引入了Language思維模塊，從而構(gòu)建出能"理解"場景、"推理"路徑并能"記憶"行為的大腦式模型。

設(shè)計的初衷是突破模仿學(xué)習(xí)的天花板——端到端架構(gòu)，隨著數(shù)據(jù)量擴(kuò)增，其MPI（Miles per Intervention）提升逐漸趨緩，而VLA借助思維鏈條的加入，提升了模型泛化與適應(yīng)未知場景的能力。

VLA司機(jī)大模型，讓輔助駕駛變得更聰明、更安全，也更貼近人類司機(jī)的感覺，能“思考”和“理解”你在路上的需求。

◎ 提前避險，像老司機(jī)一樣判斷，過去的系統(tǒng)常常一到丁字路口就急剎車。但 VLA大模型會判斷是否有盲區(qū)或潛在危險，提前減速，更加安全、穩(wěn)妥，開起來讓人放心。

◎ 加減速更自然，轉(zhuǎn)彎超車也順滑，能更好地感知周圍環(huán)境，控制車輛的加速、剎車和轉(zhuǎn)向，像一個技術(shù)熟練的司機(jī)，開車穩(wěn)、坐車也舒服，不再有突然一腳油門或急剎那種不適感。

◎ 連續(xù)溝通，完成一整套任務(wù)，你可以直接對它說：“先去加油，再接孩子。”VLA司機(jī)大模型能理解多個指令之間的關(guān)系，自動規(guī)劃路線，連續(xù)完成多個任務(wù)，像個真正聽得懂話、有邏輯的人類司機(jī)。

VLA采用了0.4×8的MoE結(jié)構(gòu)，為車載平臺量身定制，在有限算力下平衡了多場景適配能力與推理速度。模型不僅能完成路徑?jīng)Q策，還能接受連續(xù)語言指令完成串聯(lián)任務(wù)，實現(xiàn)“與司機(jī)對話”的連續(xù)駕駛體驗。

通過對通識知識、空間結(jié)構(gòu)和人類駕駛風(fēng)格的大量遷移學(xué)習(xí)，VLA逐步形成“擬人化”駕駛策略。

模型訓(xùn)練方面，理想在云端搭建了13 EFLOPS的算力平臺，其中3 EFLOPS用于推理，10 EFLOPS用于訓(xùn)練，并基于此構(gòu)建了32B參數(shù)量的多模態(tài)大模型。

該模型通過強(qiáng)化學(xué)習(xí)與模型蒸餾壓縮為3.2B規(guī)模的MoE架構(gòu)，并成功部署于車端Thor芯片上。該芯片采用INT8和FP8混合精度推理，有效算力達(dá)到1000 TOPS，在10Hz幀率下實現(xiàn)完整的視覺語言交互響應(yīng)。

為了提升推理效率，理想引入了多項模型壓縮策略，如Diffusion流匹配推理步驟壓縮、MoE路由器動態(tài)激活機(jī)制等。例如傳統(tǒng)Diffusion模型需10步生成路徑，而通過Flow Matching方式壓縮至2步推理，有效提升10Hz幀率下響應(yīng)時延。

VLA從架構(gòu)設(shè)計、數(shù)據(jù)結(jié)構(gòu)、工程實現(xiàn)構(gòu)建了一個具備思維與執(zhí)行能力的駕駛體，在自動駕駛模型向GPT時刻邁進(jìn)的過程中率先實現(xiàn)了工程落地。

Part 2 從芯片壓榨到世界仿真

在VLA落地過程中，需要通過工程優(yōu)化將既有算力平臺推至極限。

Thor芯片在理論算力700TOPS的基礎(chǔ)上，通過INT8與FP8混合精度優(yōu)化、PTX底層重寫、CUDA魔改等手段實現(xiàn)1000 TOPS的推理效率，配合10Hz高幀率運行VLA模型來進(jìn)行。

甚至在更低算力的Orin-X芯片上，也通過INT4混合精度與MoE精簡部署，實現(xiàn)與Thor平臺幾乎相同的推理體驗，保持同步推送能力。

數(shù)據(jù)與訓(xùn)練能力構(gòu)成另一個核心支柱。數(shù)據(jù)閉環(huán)已累計超12億有效駕駛數(shù)據(jù)片段，并以“老司機(jī)風(fēng)格”為標(biāo)注準(zhǔn)則，清洗訓(xùn)練數(shù)據(jù)以符合高安全性、舒適度與規(guī)則要求。

當(dāng)前模型以1000萬Clips為基礎(chǔ)訓(xùn)練量，通過QAT量化訓(xùn)練與自研工具鏈完成FP32至FP8/INT4模型的穩(wěn)定收斂，并結(jié)合RLHF強(qiáng)化學(xué)習(xí)機(jī)制，確保每一版本模型能力不斷逼近“人駕10倍安全性”的目標(biāo)。

VLA模型真正實現(xiàn)飛躍的關(guān)鍵并非訓(xùn)練數(shù)據(jù)本身，而是世界模型與仿真環(huán)境的落地。

在物理世界成本高昂、反饋周期慢的背景下，理想自研的世界模型構(gòu)建起一個完整具身智能訓(xùn)練空間，通過構(gòu)建具Agent智能的3D物理環(huán)境，模擬紅綠燈可視性、車輛行為反饋、碰撞響應(yīng)等細(xì)節(jié)，實現(xiàn)在90%以上場景中以仿真方式替代實車訓(xùn)練。

系統(tǒng)支持每日30萬公里以上的測試?yán)锍�，總計仿真�?shù)據(jù)已超4000萬公里。每一個仿真樣本都經(jīng)由大模型評測、評分、反饋并強(qiáng)化訓(xùn)練，構(gòu)成完整閉環(huán)。

在OTA 7.5“超級對齊”升級版本中，VLA模型通過對40萬+仿真場景的覆蓋與評估，得分已全面超越上一代端到端模型。

理想的世界模型仿真能力構(gòu)成VLA模型最重要的技術(shù)壁壘，加速了模型優(yōu)化進(jìn)程，還建立起行業(yè)領(lǐng)先的評測體系與行為獎勵機(jī)制，為強(qiáng)化學(xué)習(xí)提供真實反饋，在模型具身智能能力不斷增強(qiáng)的過程中，保障安全性、舒適性與合規(guī)性的有序進(jìn)化。

小結(jié)

VLA可能是一條輔助駕駛的路徑，從感知、決策、執(zhí)行三元分離走向類人推理、交互與自主行為的整合。VLA的真正價值，不僅是駕駛更平順、接管更少、交流更自然的“司機(jī)模型”。

原文標(biāo)題 : 從“模仿”走向“思考”：VLA司機(jī)大模型帶來的變化

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機(jī)器人產(chǎn)業(yè)大會
4月17日
立即報名 >> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7