訂閱
糾錯
加入自媒體

自動駕駛軟硬一體,理想給出了自己的答案

圖片

文|劉俊宏 

編|王一粟

2016年7月,馬斯克終止了特斯拉與智駕芯片供應(yīng)商Mobileye的合作。

這場分手的背后,是自動駕駛技術(shù)全棧閉環(huán)的理念之爭。特斯拉當(dāng)時要做技術(shù)全棧閉環(huán),需要掌控?cái)?shù)據(jù)和算法,但Mobileye始終不同意完全開放。談判破裂后,馬斯克下定決心走上軟硬一體的路線。在后來多次財(cái)報(bào)電話會上,馬斯克感慨,正是這次“自己造芯”的冒險,才讓特斯拉在自動駕駛賽道建立了難以逾越的護(hù)城河。

如今,中國的自動駕駛玩家也來到了軟硬一體的階段。

站在2026年這個節(jié)點(diǎn),我們能看到非常多自動駕駛玩家的自研芯片有了實(shí)質(zhì)進(jìn)展。其中,蔚來神璣芯片和小鵬圖靈芯片已經(jīng)上車,理想的馬赫100芯片也即將隨著全新理想L9亮相。

但在這個過程中,行業(yè)普遍遇到的一個共性問題就是:自研芯片開發(fā)成本極高,軟件適配難度極大。芯片流片一次動輒數(shù)十億,算法團(tuán)隊(duì)還要花數(shù)月時間反復(fù)適配、調(diào)優(yōu),稍有不慎就會出現(xiàn)“芯片算力拉滿、實(shí)際效能卻打折”的尷尬局面。

如果說自研芯片是自動駕駛行業(yè)的必然趨勢,那如何才能解決高昂成本和軟硬適配的痛點(diǎn)?近日,理想汽車公布了一項(xiàng)研究成果,為智駕軟硬結(jié)合提供了理論支撐。

在過去幾年里,自動駕駛的一條主線是算力競賽。消費(fèi)者看硬件參數(shù)、車企拼TOPS,大家似乎都相信,更大的算力就能證明智駕能力更強(qiáng)。在發(fā)展的過程中,我們也見證了智駕芯片從英偉達(dá)Orin的254 TOPS到Thor的1000 TOPS,再到國產(chǎn)自研芯片的更大算力,數(shù)據(jù)不斷刷新。

但智駕真的百分百適用于Scaling Law嗎?

不完全是這樣。例如當(dāng)行業(yè)進(jìn)入VLA(視覺-語言-行動)模型時代之后,自動駕駛就遇到了前所未有的難題。一方面,VLA作為一個邏輯自洽的技術(shù)架構(gòu),需要更高的認(rèn)知智能才能發(fā)揮實(shí)力。它要像人類司機(jī)一樣“看懂場景、理解意圖、作出決策”。另一方面,汽車智駕跟云端大模型完全不一樣。車載芯片受限于功耗、散熱、成本、實(shí)時性、安全冗余,根本不能盲目堆參數(shù)、堆算力。造成的結(jié)果就是,模型越來越聰明,芯片卻有點(diǎn)“跟不上”。

本次理想提出的“端側(cè)大語言模型的軟硬協(xié)同設(shè)計(jì)定律”,就指出了破局的關(guān)鍵。

本次研究,理想回答了兩個核心問題。第一是芯片峰值性能并不等于實(shí)際系統(tǒng)效能,芯片的有效算力更重要;第二是通過數(shù)學(xué)手段,能構(gòu)建一套可量化、可預(yù)測、可落地的數(shù)學(xué)框架,讓“算法定義芯片”從空談變成現(xiàn)實(shí)。

一句話總結(jié)就是,智駕軟件和硬件能夠找到一個場景最佳的解法。同時,相互合適的硬件和軟件,是能通過協(xié)同設(shè)計(jì)的方式來發(fā)現(xiàn)的。

基于這項(xiàng)研究結(jié)果,理想準(zhǔn)備在全新理想L9落地自研的馬赫100芯片,挑戰(zhàn)汽車智能的上限。

那么,理想發(fā)現(xiàn)的軟硬協(xié)同設(shè)計(jì)定律到底講了什么?到底想要解決行業(yè)的什么痛點(diǎn)?我們一起來看這項(xiàng)研究。

算法和芯片,需要“商量著”一起長大

過去幾年里,英偉達(dá)計(jì)算平臺幾乎是汽車高階智駕的標(biāo)配。但隨著智駕技術(shù)發(fā)展,英偉達(dá)的對手越來越多。車企這邊,選擇自研芯片的有理想、小鵬、蔚來等廠商。芯片廠商這邊,AMD、高通近幾年也加入“戰(zhàn)場”,共同分食英偉達(dá)的“蛋糕”。

為什么汽車廠商要選擇更換計(jì)算平臺?這場變革的背后,是自動駕駛技術(shù)撞上了兩堵硬墻。

第一堵墻是大模型進(jìn)化極快,芯片迭代卻相對緩慢,導(dǎo)致硬件迭代速度有點(diǎn)跟不上了。在VLA逐漸成為主流技術(shù)范式的當(dāng)下,智駕模型的參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)、能力邊界幾乎每幾個月就刷新一次,而車規(guī)級芯片從設(shè)計(jì)到流片、驗(yàn)證、上車,往往需要3-5年時間。對于這些新的模型需求,不少新計(jì)算平臺開始強(qiáng)調(diào)對MoE稀疏計(jì)算有原生支持、提供KV緩存超大容量,或能實(shí)現(xiàn)動態(tài)資源調(diào)度。種種跡象,意味著過去“公認(rèn)”的計(jì)算平臺已經(jīng)越來越難以滿足VLA時代的性能需求。

另一堵墻則是,自動駕駛行業(yè)發(fā)現(xiàn)通用計(jì)算平臺不能完全發(fā)揮模型能力上限。智駕模型需要芯片具備特定參數(shù)的性能,而這恰恰是通用計(jì)算平臺難以滿足的。例如智駕模型做決策時,需要大量MoE調(diào)用能力,但通用計(jì)算平臺缺乏對稀疏計(jì)算原生支持,也缺乏對量化的原生支持。智駕保障行車安全需要低延遲反饋,但通用計(jì)算平臺會“相互卡任務(wù)”不能保障輸出穩(wěn)定。這導(dǎo)致算法適配最終只能“削足適履”,要么犧牲模型精度,要么犧牲實(shí)時響應(yīng),或者增加冗余芯片導(dǎo)致成本飆升。

為了解決這兩項(xiàng)難題,理想在這篇論文中認(rèn)為——軟硬件協(xié)同設(shè)計(jì)是破局的關(guān)鍵。

圖片

具體來說,理想用了兩個核心數(shù)學(xué)手段來實(shí)現(xiàn)這一協(xié)同。

第一個是用損失函數(shù)擴(kuò)展法則的車載化應(yīng)用,用低成本“算出”模型能力上限。這其實(shí)是行業(yè)大模型研發(fā)比較普遍的流程;驹硎谴竽P捅旧碛幸粋“錯誤率”,模型越小“錯誤率”越大,但“錯誤率”的增長曲線可以預(yù)測。這就意味著只要給定模型超參(參數(shù)量、層數(shù)、FFN倍數(shù)等),就能無需完整訓(xùn)練,直接預(yù)測最終精度。

簡單來說,就是只要用小模型跑幾次就能算出“大模型大概能聰明到什么程度”,從而省下天價的GPU電費(fèi)和時間。

圖片

另一個手段是Roofline性能建模的車載化革新,“計(jì)算出”模型所需的關(guān)鍵硬件參數(shù)。Roofline本來是用于HPC(高性能計(jì)算)的可視化性能分析框架,用于定量評估應(yīng)用程序處理器上的瓶頸。理想針對車載場景進(jìn)行了擴(kuò)展,在考慮傳統(tǒng)計(jì)算與內(nèi)存帶寬平衡之外,首次添加了智駕所需的KV緩存(可理解為關(guān)鍵信息緩存)、MoE路由(可以理解為分配專家模型運(yùn)行的機(jī)制)、注意力機(jī)制等大模型特有需求,來計(jì)算模型對智駕計(jì)算平臺的影響。

簡單來說,就是“算出”計(jì)算平臺能支持的模型“聰明程度”。

圖片

在此基礎(chǔ)上,結(jié)合上述兩個式子就誕生了PLAS(帕累托最優(yōu)LLM架構(gòu)搜索)框架,從而實(shí)現(xiàn)了協(xié)同設(shè)計(jì)。在公式中,只需要輸入芯片的算力、帶寬、緩存層次,以及工程約束(例如延遲<100ms、功耗、內(nèi)存),自動生成最優(yōu)的模型架構(gòu)方案——找到“在當(dāng)前硬件上,精度最高、延遲最低的那條邊界”。簡單來說,就是能同時找到算法能力和芯片設(shè)計(jì)的共同最優(yōu)解。

圖片

同時,理想還給出了不同硬件平臺(Jetson Orin/Thor)上的帕累托最優(yōu)前沿,驗(yàn)證了“硬件協(xié)同設(shè)計(jì)擴(kuò)展定律”的跨硬件平臺泛化性,找到了英偉達(dá)計(jì)算平臺的能力上限。

圖片

這種設(shè)計(jì)模式最大的價值就是讓此前行業(yè)“先設(shè)計(jì)芯片再適配算法”或“先開發(fā)算法再找芯片”的割裂流程徹底成為歷史。

“本來Orin芯片是不支持跑語言模型的。但因?yàn)橛ミ_(dá)沒時間,所以我們自己寫了底層推理引擎”。理想創(chuàng)始人兼CEO李想在一次采訪中稱。

傳統(tǒng)的流程,一邊是芯片工程師在拼命追求算力更強(qiáng),一邊是算法工程師在拼命追求模型更智能,但兩者對接時才發(fā)現(xiàn)“不兼容”,造成大量資源浪費(fèi)。協(xié)同設(shè)計(jì)就是要打破隔閡,讓芯片和算法從一開始就緊密配合,讓算法和芯片從一開始就“商量著”一起長大。

對于自動駕駛行業(yè)準(zhǔn)備走軟硬一體路線的玩家來說,理想的研究無疑向行業(yè)交了一把可復(fù)制的鑰匙。

沒有通用芯片,只有場景最優(yōu)芯片

理想關(guān)于協(xié)同設(shè)計(jì)的數(shù)學(xué)計(jì)算過程并不困難。但在AI時代,一個好問題的價值,要遠(yuǎn)勝于無數(shù)淺薄的信息。

為什么理想要進(jìn)行協(xié)同設(shè)計(jì)的研究?因?yàn)樗茉缇团錾狭俗詣玉{駛技術(shù)落地的難題。

“在車載芯片上部署VLM面臨巨大挑戰(zhàn),尤其是在主流的 Orin-X 芯片上,該芯片在設(shè)計(jì)之初并未考慮大模型的應(yīng)用需求。因此,我們在部署過程中需克服諸多工程難題。”

正如理想汽車基座模型負(fù)責(zé)人詹錕在2024年所說。早在英偉達(dá)Orin芯片落地高階智駕的時期,理想就深刻體會到“軟硬割裂”的痛苦。平心而論,英偉達(dá)計(jì)算平臺確實(shí)提供了強(qiáng)大的理論算力,但在實(shí)際部署大語言模型時,理想的技術(shù)團(tuán)隊(duì)常發(fā)現(xiàn)“芯片峰值性能≠實(shí)際系統(tǒng)效能”的困境。

精心設(shè)計(jì)的模型架構(gòu)往往無法充分利用硬件特性,而為了硬件適配做出的妥協(xié)又可能損害模型智能。這簡直就像是一尊精致的雕像,只能以殘缺的狀態(tài)展示給觀眾。這種割裂感讓理想下定決心,必須從根本上解決。

解決的思路,是理想決定從提升模型性能入手,同時試圖找到兼顧模型落地的時間、硬件和應(yīng)用成本的答案。具體目標(biāo)包括:把模型設(shè)計(jì)和選擇的周期從數(shù)月壓縮至一周;無需盲目使用更貴的芯片,也能為用戶帶來更好的智能體驗(yàn);根據(jù)應(yīng)用場景,快速選出最適合的模型配置,整體縮短開發(fā)周期。

根據(jù)這項(xiàng)研究,理想將上述目標(biāo)提煉成了6個核心結(jié)論。每一條都直指車載大模型部署的痛點(diǎn),并將自研芯片提到了勢在必行的高度。

首先,稀疏計(jì)算將成為車載AI標(biāo)配。在車載典型的批處理大小為1的場景下,MoE稀疏架構(gòu)100%主導(dǎo)效率前沿。這意味著未來車載芯片需要原生支持稀疏計(jì)算和動態(tài)路由,而非簡單提供密集矩陣乘算力。簡單來說,車載AI模型的發(fā)展方向跟云端“大而全”不一樣,計(jì)算平臺需要原生支持“專且精”的架構(gòu)。

其次,內(nèi)存子系統(tǒng)設(shè)計(jì)比算力峰值更重要。論文指出“寬而淺”的最優(yōu)架構(gòu)形態(tài)表明,內(nèi)存帶寬和緩存效率往往比理論TOPS更能決定系統(tǒng)實(shí)際性能。這意味著芯片內(nèi)存層次設(shè)計(jì)要隨需求變化,例如專門為KV緩存和注意力機(jī)制預(yù)留足夠的高速緩存空間。

第三,階段感知的微架構(gòu)優(yōu)化。在模型運(yùn)作過程中,Prefill(預(yù)填充)和Decode(解碼)階段對硬件資源的需求截然不同,Prefill需要大量并行算力單元,猛猛計(jì)算;而Decode階段需要大量內(nèi)存帶寬和空間,算力反而閑置。在常規(guī)GPU設(shè)計(jì)里,這些計(jì)算流程通常都是固定的,但汽車智駕需要兼顧實(shí)時性和確定性。這代表新的芯片需要支持動態(tài)的微架構(gòu)重構(gòu)或資源分配,以保障兩個階段的計(jì)算都能穩(wěn)定輸出。

第四,打破4倍FFN(前饋網(wǎng)絡(luò))的固定模式。傳統(tǒng)Transformer架構(gòu)一般默認(rèn)是4倍FFN擴(kuò)展比,就像是個放大鏡,不管輸入多復(fù)雜都要先把維度擴(kuò)大4倍,算完再壓縮回去。但車載場景下,運(yùn)算資源相對有限,“火力全開就代表著油耗爆炸”。這意味著芯片的矩陣乘單元和激活函數(shù)單元需要更靈活的配比,才能適配VLA模型的實(shí)際負(fù)載分布。

第五,量化加速需要硬件原生支持。為了保證智駕輸出的實(shí)時性、安全性和功耗要求,理論上智駕模型從FP16或BF16權(quán)重量化到INT8量化的加速因子為2倍。但根據(jù)理想實(shí)際測試,使用常規(guī)平臺的加速效果只有1.3-1.6倍。這是因?yàn)樵趽Q算過程中,非線性算子和精度轉(zhuǎn)換都會占用資源,這意味著大量運(yùn)算資源被浪費(fèi)。所以,下一代芯片需要在指令集和運(yùn)算單元層面提供混合精度計(jì)算和算子融合的原生支持。

第六,沒有通用芯片,只有場景最優(yōu)芯片。綜合上述結(jié)論看到,要想最大化模型能力就必須要重新調(diào)整硬件計(jì)算架構(gòu),這從根本上證明了“算法定義芯片”的必要。只有深度理解上層算法需求,才能設(shè)計(jì)出最高效的專用計(jì)算架構(gòu)。

這些發(fā)現(xiàn),并不是紙上談兵。為了驗(yàn)證協(xié)同設(shè)計(jì)定律,理想在英偉達(dá)Jetson Orin/Thor平臺上做了嚴(yán)格對比測試。結(jié)果顯示,應(yīng)用協(xié)同設(shè)計(jì)定律優(yōu)化的模型,在與Qwen2.5-0.5B保持完全相同延遲的前提下,實(shí)現(xiàn)了19.42%的精度提升。這直接證明了軟硬協(xié)同設(shè)計(jì)可以實(shí)現(xiàn)“同等硬件、更優(yōu)性能”,能立刻帶來可量化的工程收益。

圖片

對于產(chǎn)品側(cè)來說,這一發(fā)現(xiàn)也直接促成理想自研馬赫100芯片。作為馬赫100首發(fā)搭載的全新理想L9,李想更是在微博中宣稱,其3倍于英偉達(dá)Thor-U芯片的有效算力,是全球最強(qiáng)的智駕大腦。

擁有了自研芯片,不僅意味著理想從“被動適配芯片”轉(zhuǎn)到“算法定義芯片”的階段。更是為中國自動駕駛廠商在VLA時代提供了可以“開箱即用”的理論武器。

李想的AI工程方法論

軟硬結(jié)合、協(xié)同開發(fā),早就是全球每一個AI巨頭的必修課。

2013年,時任Google Brain負(fù)責(zé)人的Jeff Dean隨手拿了一張餐巾紙做了一項(xiàng)計(jì)算。結(jié)果顯示,為了支撐用戶使用語音識別模型,谷歌需要把數(shù)據(jù)中心集群再擴(kuò)建一倍。簡單幾個數(shù)字,讓在場的所有高管冷汗直流。

為了避免這場危機(jī),谷歌當(dāng)機(jī)立斷啟動TPU研發(fā)項(xiàng)目。定義硬件的方式,是根據(jù)一篇老論文,將芯片設(shè)計(jì)成匹配算法需要的矩陣運(yùn)算。15個月后,谷歌做出了TPU,從此不再被GPU“綁架”。如今,通過谷歌云和Gemini,谷歌將TPU賣到了全世界。

谷歌用實(shí)際行動證明,只有軟硬協(xié)同,才能把每一分算力都用在刀刃上。理想在這條路上,也找到了輔助駕駛?cè)珬<夹g(shù)閉環(huán)的方向。

還記得在2025年時,智駕技術(shù)領(lǐng)先的玩家還在參考DeepSeek的技術(shù),用蒸餾的手段讓AI大模型從“云端大模型下車”。理想當(dāng)時針對智駕大模型做了一系列預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練的調(diào)整,才拿出了對標(biāo)人類智能的“司機(jī)大模型”——VLA。

“我們對Deepseek R1從上線到后面開源都做了相當(dāng)多的研究和擁抱。DeepSeek的速度比想象中快,所以VLA到來的速度也比想象中快。”李想曾如此總結(jié)說。

如今,在完成軟硬一體之后,為車端量身定制的“算法原生模型”能讓智駕實(shí)現(xiàn)感知、決策、規(guī)劃、控制全鏈路都在同一套數(shù)學(xué)框架下優(yōu)化,進(jìn)一步刷新了整個系統(tǒng)的延遲、精度和能效。

這種轉(zhuǎn)變,本質(zhì)上是AI工程能力的進(jìn)化。過去還需要工程師根據(jù)經(jīng)驗(yàn)調(diào)優(yōu)、不斷試錯迭代,現(xiàn)在靠PLAS框架和數(shù)學(xué)定律,最優(yōu)方案已經(jīng)能實(shí)現(xiàn)“一鍵生成”。

“任何時候當(dāng)我們想去改變和提升能力,第一步一定是搞研究,第二步是研發(fā),第三步是把能力表達(dá)出來,第四步是能力變成業(yè)務(wù)的價值。”李想說。

理想為了實(shí)現(xiàn)這一目標(biāo),下了相當(dāng)多的苦功夫。

在基礎(chǔ)研究層面,理想的投入可謂是“豪橫”。近8年來,理想一直在加大研發(fā)投入。光是2025一年,理想預(yù)計(jì)研發(fā)投入達(dá)到120億元,其中人工智能領(lǐng)域投入達(dá)到60億元。

隨著研發(fā)投入,我們也能清晰看到理想自動駕駛技術(shù)的成長足跡。自2021年至2025年11月,理想圍繞BEV(Bird's-eye-view,鳥瞰圖)、端到端模型、VLM視覺語言模型、VLA視覺語言行動模型、強(qiáng)化學(xué)習(xí)、世界模型、AI基座模型等領(lǐng)域,發(fā)表近50篇論文,被引用超過2500次。其中,32篇論文中稿頂會。

在基礎(chǔ)研究中,理想的組織架構(gòu)也在朝著更適合AI研究的方向演進(jìn)。在今年1月,理想就率先進(jìn)行了一系列組織調(diào)整。其中,理想汽車自動駕駛高級算法專家詹錕接手基座模型業(yè)務(wù),整體負(fù)責(zé)理想的VLA基座模型研發(fā),并將相關(guān)技術(shù)研發(fā)團(tuán)隊(duì)充分整合。這代表理想的智駕全面進(jìn)入AI大模型時代。

1月底,李想在內(nèi)部還明確說,將大幅調(diào)整技術(shù)研發(fā)團(tuán)隊(duì)架構(gòu),參照最先進(jìn)AI公司的運(yùn)作模式,按照協(xié)作構(gòu)建硅基生命的方式重新設(shè)定人員分工。通過持續(xù)優(yōu)化內(nèi)部架構(gòu)的方式,理想希望公司的算法、芯片、OS團(tuán)隊(duì)實(shí)現(xiàn)深度協(xié)同,讓研究成果能以最快速度轉(zhuǎn)化為量產(chǎn)能力。

也正是基于對AI的理解,李想也成了汽車圈“最擁護(hù)”AI發(fā)展的CEO。近日,李想還在朋友圈明確感慨,學(xué)會使用Agent能放大頂級專家和普通人之間的差距。

圖片

或許,AI時代最重要的法則就是ALL in AI。

曾經(jīng)領(lǐng)先全球的特斯拉FSD(特斯拉自動駕駛),在中國自動駕駛廠商技術(shù)全棧閉環(huán)的追趕下,逐漸不再“驚艷”。

軟硬協(xié)同設(shè)計(jì)定律只是一個開始,中國智能汽車廠商們正在定義汽車智能的上限。

       原文標(biāo)題 : 自動駕駛軟硬一體,理想給出了自己的答案

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號