小米 SU7 ,智駕方案為何不選華為路線
作者|張霽欣
編輯|冒詩(shī)陽(yáng)
汽車像素(ID:autopix)原創(chuàng)
幾天前,小米 SU7 部分推送了最新的先鋒版智能駕駛系統(tǒng),全國(guó)都能開(kāi)、車位到車位,能力超越很多頭部新勢(shì)力。小米的智駕能力,為什么可以快速迭代?我們今天來(lái)聊聊,這套很有爭(zhēng)議的技術(shù)。
2023 年下半年開(kāi)始,端到端智駕大模型,被公認(rèn)是實(shí)現(xiàn)高階智能駕駛的技術(shù)方向。
將海量真實(shí),或仿真的駕駛數(shù)據(jù)搜集起來(lái),輸入給 AI 大模型進(jìn)行訓(xùn)練。訓(xùn)練成熟以后,未來(lái)的 AI 將可以模仿老司機(jī)的駕駛方式,來(lái)幫助人類開(kāi)車。
這套技術(shù)先是特斯拉在做,后來(lái)小鵬、理想、蔚來(lái)、小米,甚至比亞迪。可以說(shuō)所有前沿車企,人手一個(gè) AI 大模型。但隨后,大家發(fā)現(xiàn)一個(gè)問(wèn)題,沒(méi)有人真正追上特斯拉,甚至在很多層面上,差距還越來(lái)越大了。
要解決大模型的問(wèn)題,國(guó)內(nèi)車企分成了兩派,一個(gè)是華為、小鵬為代表的,繼續(xù)加強(qiáng)訓(xùn)練。這需要非常大量、優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)。比如小鵬大模型的訓(xùn)練數(shù)據(jù)量,已經(jīng)達(dá)到了 2000 萬(wàn) clips。這是起步晚的小米所做不到的,它積累的數(shù)據(jù)量?jī)H有 300 萬(wàn)。
如果硬要學(xué)小鵬,需要大量的車在路上收集數(shù)據(jù),回傳之后訓(xùn)練,最快也得一年才能追趕上。這個(gè)時(shí)間,對(duì)于小米來(lái)說(shuō),有點(diǎn)太久了。
于是小米、理想為代表,國(guó)內(nèi)車企有了第二種方案。在智駕大模型的基礎(chǔ)上,加上一個(gè)數(shù)據(jù)體量沒(méi)那么大的 VLM 模型,作為輔助。
VLM 的全稱,是視覺(jué)語(yǔ)言模型,可以把圖像用文字描述出來(lái),這就需要先理解圖像的內(nèi)容,現(xiàn)在的智駕大模型是通過(guò)大量訓(xùn)練,做出的肌肉記憶,優(yōu)勢(shì)是反應(yīng)快,但它不能真的像人類一樣,理解場(chǎng)景、思考推斷,關(guān)鍵時(shí)候能變通。
VLM 就是幫忙解決這個(gè)問(wèn)題的,比如這樣一個(gè)場(chǎng)景。
現(xiàn)在的智駕大模型,可以準(zhǔn)確識(shí)別出紅框中的要素,并根據(jù)大數(shù)據(jù)提供的駕駛經(jīng)驗(yàn),快速做出決策,這個(gè)決策大部分時(shí)候都沒(méi)問(wèn)題,而且可能很老練,但并不意味著智駕大模型能夠理解這個(gè)場(chǎng)景,知道這里在發(fā)生什么。比如行人、車輛、紅綠燈之間可能的關(guān)系,未來(lái)會(huì)發(fā)生什么變化。
VLM 在這時(shí),可以對(duì)場(chǎng)景進(jìn)行解讀,給到補(bǔ)充信息,它能夠理解,這是個(gè)紅燈場(chǎng)景,所以行人在穿過(guò)馬路,而自己在左轉(zhuǎn)道上,準(zhǔn)備等綠燈左轉(zhuǎn)。
簡(jiǎn)單來(lái)說(shuō),VLM 就是一個(gè) “看圖說(shuō)話” 能力強(qiáng)的模型,可以輔助 “解讀” 很多信息,比如判斷哪一條是公交車道、潮汐車道等等。以上這些問(wèn)題,如果僅靠智駕大模型,需要海量的數(shù)據(jù)來(lái)訓(xùn)練,才能做到接近 100% 的準(zhǔn)確度。訓(xùn)練不夠時(shí),VLM 像是一個(gè)外掛的教練,坐在副駕上,輔助端到端大模型開(kāi)車
既然這么好,為什么其他車企不用呢?
VLM 最大的問(wèn)題,是延遲。這個(gè)模型要分析和理解場(chǎng)景,所以在車端算力受限時(shí),需要比較長(zhǎng)的時(shí)間。比如理想的 VLM ,從感知到出結(jié)果,大概需要一秒鐘左右。要知道,車速在 80 km/h 的時(shí)候,一秒鐘可以行駛 22 米,這個(gè)延遲,是不滿足智能駕駛實(shí)時(shí)性需求的。
另一個(gè)問(wèn)題,是訓(xùn)練的難度。雖然 VLM 模型所需要的數(shù)據(jù)量,不像智駕大模型那么大,但要求更刁鉆,需要在每個(gè)訓(xùn)練數(shù)據(jù)中,都提供圖像和文本的對(duì)應(yīng)。這就只能通過(guò)人工,做視覺(jué)問(wèn)答標(biāo)注,過(guò)程復(fù)雜且耗時(shí)。最終的質(zhì)量也難以保證,畢竟不同人,對(duì)于同一個(gè)場(chǎng)景的理解,會(huì)有偏差,寫(xiě)成文本,差異就更大了。
VLM 能短期內(nèi),彌補(bǔ)端到端大模型下限低的問(wèn)題,給智駕大模型那 0.1% 的問(wèn)題兜底。但長(zhǎng)期來(lái)看,這種并列多個(gè)模型的路線,并不是智駕的最終局。
本文為汽車像素(autopix)原創(chuàng)內(nèi)容
未經(jīng)授權(quán),請(qǐng)勿轉(zhuǎn)載
原文標(biāo)題 : 小米 SU7 ,智駕方案為何不選華為路線丨Pix視頻
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【在線研討會(huì)】普源精電--激光原理應(yīng)用與測(cè)試解決方案
-
精彩回顧立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
- 1 從技術(shù)狂歡到安全合規(guī) :2025上半年自動(dòng)駕駛?cè)谫Y進(jìn)入“場(chǎng)景閉環(huán)”新周期
- 2 飛行汽車:開(kāi)啟規(guī);囷w
- 3 智駕技術(shù)戰(zhàn):特斯拉、華為、理想、小鵬和比亞迪,誰(shuí)才是未來(lái)?
- 4 最嚴(yán)輔助駕駛新規(guī),兩部門(mén)再劃監(jiān)管、宣傳紅線
- 5 奧迪A5L Sportback全新登場(chǎng),上市亮點(diǎn)探秘
- 6 道通科技,全球汽車診斷市場(chǎng)龍頭
- 7 百度蘿卜快跑:從北大嶼山到香港島:自動(dòng)駕駛在香港的 “三級(jí)跳” 啟示錄
- 8 自動(dòng)駕駛RoboTaxi“闖五關(guān)”:混合運(yùn)營(yíng)才能扛起商業(yè)化大旗?蘿卜快跑、小馬智行、文遠(yuǎn)知行、特斯拉、Waymo怎么選?
- 9 狂飆 836%!小馬智行與文遠(yuǎn)知行,自動(dòng)駕駛界的 “瑜亮之爭(zhēng)”,誰(shuí)能成為王者?
- 10 一周股評(píng)|為何資本市場(chǎng)不買“央企第三極”的賬?