訂閱
糾錯
加入自媒體

從“模仿”走向“思考”:VLA司機大模型帶來的變化

芝能智芯出品

VLA(Vision-Language-Action)駕駛大模型是理想汽車在2025年八月即將實現(xiàn)重要落地的輔助駕駛。

不同于第一代的結(jié)構(gòu)化算法和第二代的端到端系統(tǒng),采用了新的視覺-語言-行為的多模態(tài)架構(gòu),使得車輛可以同時理解空間地理、語言意圖和行為合理性,實現(xiàn)更好的出行體驗。

Part 1 VLA模型結(jié)構(gòu)

VLA架構(gòu)的本質(zhì),是在原端到端 VA(Vision-Action)模型基礎(chǔ)上引入了Language思維模塊,從而構(gòu)建出能"理解"場景、"推理"路徑并能"記憶"行為的大腦式模型。

設(shè)計的初衷是突破模仿學(xué)習(xí)的天花板——端到端架構(gòu),隨著數(shù)據(jù)量擴增,其MPI(Miles per Intervention)提升逐漸趨緩,而VLA借助思維鏈條的加入,提升了模型泛化與適應(yīng)未知場景的能力。

VLA司機大模型,讓輔助駕駛變得更聰明、更安全,也更貼近人類司機的感覺,能“思考”和“理解”你在路上的需求。

◎ 提前避險,像老司機一樣判斷,過去的系統(tǒng)常常一到丁字路口就急剎車。但 VLA大模型會判斷是否有盲區(qū)或潛在危險,提前減速,更加安全、穩(wěn)妥,開起來讓人放心。

◎ 加減速更自然,轉(zhuǎn)彎超車也順滑,能更好地感知周圍環(huán)境,控制車輛的加速、剎車和轉(zhuǎn)向,像一個技術(shù)熟練的司機,開車穩(wěn)、坐車也舒服,不再有突然一腳油門或急剎那種不適感。

◎ 連續(xù)溝通,完成一整套任務(wù),你可以直接對它說:“先去加油,再接孩子。”VLA司機大模型能理解多個指令之間的關(guān)系,自動規(guī)劃路線,連續(xù)完成多個任務(wù),像個真正聽得懂話、有邏輯的人類司機。

VLA采用了0.4×8的MoE結(jié)構(gòu),為車載平臺量身定制,在有限算力下平衡了多場景適配能力與推理速度。模型不僅能完成路徑?jīng)Q策,還能接受連續(xù)語言指令完成串聯(lián)任務(wù),實現(xiàn)“與司機對話”的連續(xù)駕駛體驗。

通過對通識知識、空間結(jié)構(gòu)和人類駕駛風(fēng)格的大量遷移學(xué)習(xí),VLA逐步形成“擬人化”駕駛策略。

模型訓(xùn)練方面,理想在云端搭建了13 EFLOPS的算力平臺,其中3 EFLOPS用于推理,10 EFLOPS用于訓(xùn)練,并基于此構(gòu)建了32B參數(shù)量的多模態(tài)大模型。

該模型通過強化學(xué)習(xí)與模型蒸餾壓縮為3.2B規(guī)模的MoE架構(gòu),并成功部署于車端Thor芯片上。該芯片采用INT8和FP8混合精度推理,有效算力達到1000 TOPS,在10Hz幀率下實現(xiàn)完整的視覺語言交互響應(yīng)。

為了提升推理效率,理想引入了多項模型壓縮策略,如Diffusion流匹配推理步驟壓縮、MoE路由器動態(tài)激活機制等。例如傳統(tǒng)Diffusion模型需10步生成路徑,而通過Flow Matching方式壓縮至2步推理,有效提升10Hz幀率下響應(yīng)時延。

VLA從架構(gòu)設(shè)計、數(shù)據(jù)結(jié)構(gòu)、工程實現(xiàn)構(gòu)建了一個具備思維與執(zhí)行能力的駕駛體,在自動駕駛模型向GPT時刻邁進的過程中率先實現(xiàn)了工程落地。

Part 2 從芯片壓榨到世界仿真

在VLA落地過程中,需要通過工程優(yōu)化將既有算力平臺推至極限。

Thor芯片在理論算力700TOPS的基礎(chǔ)上,通過INT8與FP8混合精度優(yōu)化、PTX底層重寫、CUDA魔改等手段實現(xiàn)1000 TOPS的推理效率,配合10Hz高幀率運行VLA模型來進行。

甚至在更低算力的Orin-X芯片上,也通過INT4混合精度與MoE精簡部署,實現(xiàn)與Thor平臺幾乎相同的推理體驗,保持同步推送能力。

數(shù)據(jù)與訓(xùn)練能力構(gòu)成另一個核心支柱。數(shù)據(jù)閉環(huán)已累計超12億有效駕駛數(shù)據(jù)片段,并以“老司機風(fēng)格”為標注準則,清洗訓(xùn)練數(shù)據(jù)以符合高安全性、舒適度與規(guī)則要求。

當(dāng)前模型以1000萬Clips為基礎(chǔ)訓(xùn)練量,通過QAT量化訓(xùn)練與自研工具鏈完成FP32至FP8/INT4模型的穩(wěn)定收斂,并結(jié)合RLHF強化學(xué)習(xí)機制,確保每一版本模型能力不斷逼近“人駕10倍安全性”的目標。

VLA模型真正實現(xiàn)飛躍的關(guān)鍵并非訓(xùn)練數(shù)據(jù)本身,而是世界模型與仿真環(huán)境的落地。

在物理世界成本高昂、反饋周期慢的背景下,理想自研的世界模型構(gòu)建起一個完整具身智能訓(xùn)練空間,通過構(gòu)建具Agent智能的3D物理環(huán)境,模擬紅綠燈可視性、車輛行為反饋、碰撞響應(yīng)等細節(jié),實現(xiàn)在90%以上場景中以仿真方式替代實車訓(xùn)練。

系統(tǒng)支持每日30萬公里以上的測試里程,總計仿真數(shù)據(jù)已超4000萬公里。每一個仿真樣本都經(jīng)由大模型評測、評分、反饋并強化訓(xùn)練,構(gòu)成完整閉環(huán)。

在OTA 7.5“超級對齊”升級版本中,VLA模型通過對40萬+仿真場景的覆蓋與評估,得分已全面超越上一代端到端模型。

理想的世界模型仿真能力構(gòu)成VLA模型最重要的技術(shù)壁壘,加速了模型優(yōu)化進程,還建立起行業(yè)領(lǐng)先的評測體系與行為獎勵機制,為強化學(xué)習(xí)提供真實反饋,在模型具身智能能力不斷增強的過程中,保障安全性、舒適性與合規(guī)性的有序進化。

小結(jié)

VLA可能是一條輔助駕駛的路徑,從感知、決策、執(zhí)行三元分離走向類人推理、交互與自主行為的整合。VLA的真正價值,不僅是駕駛更平順、接管更少、交流更自然的“司機模型”。

       原文標題 : 從“模仿”走向“思考”:VLA司機大模型帶來的變化

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號